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本 书 是 介绍 当代 计算 机 体系 主流 技术 和 最 新 技术 的 优秀 教材 ， 以 Intel x86 和 ARM 两 个 处 理 器 系列 为 例 ， 深 入 讨 
论 了 计算 机 组 成 与 体系 结构 的 基本 原理 和 概念 ， 并 将 它们 运用 到 当代 计算 机 系统 设计 的 问题 中 。 

自 第 7 版 出 版 以 来 ， 计 算 机 组 成 与 体系 结构 领域 又 有 了 不 少 革新 和 进展 。 第 8 版 坚持 全 面 覆 盖 整 个 领域 ， 并 在 此 
基础 上 尽量 跟 上 新 技术 的 步伐 。 


新 增 内 容 
@ 交互 式 模拟 工具 : 提供 了 20 个 基于 Web 的 交互 式 模拟 工具 ， 为 理解 现代 处 理 器 的 复杂 机 制 提供 了 有 力 的 支持 。 
@ 嵌入 式 处 理 器 : 以 ARM 体 系 结构 为 例 ， 介 绍 庶 入 式 处 理 器 以 及 它们 提供 的 独特 的 设计 问题 。 
o 多 核 处 理 器 : 阐述 计算 机 体系 结构 最 流行 的 新 进展 一 一 单个 芯片 上 多 处 理 器 的 使 用 。 
o 高 速 缓存 :对 高 速 缓存 内 容 进行 了 全 面 的 修订 、 更 新 和 扩充 ， 涵盖 了 更 宽泛 的 技术 领域 。 
o 性 能 评估 : 扩充 了 对 性 能 评估 的 讨论 ， 增 加 了 对 基准 程序 和 阿 姆 达 尔 定律 的 分 析 。 
@ 汇编 语言 : 增加 了 一 个 关于 汇编 语言 和 汇编 器 的 新 附录 。 
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才 。 他 曾 十 次 荣获 美国 “教材 和 学 术 专著 作者 协会 ”颁发 的 “年 度 最 佳 计算 机 科学 教材 ” 奖 。 
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本 书 以 Intel x86 和 ARM 两 个 处 理 器 系列 为 例 ， 结 合 当代 计算 机 系统 性 能 设计 问题 ， 介 绍 
了 计算 机 体系 结构 的 主流 技术 和 最 新 技术 。 本 书 共 18 章 ， 分 5 个 部 分 ,第 一 部 分 (第 1 ~2 
章 ) 概述 计算 机 组 成 与 体系 结构 ， 并 讨论 计算 机 的 演变 和 性 能 ; 第 二 部 分 (第 3 ~8 章 ) 讨论 
计算 机 的 主要 部 件 及 其 互 连 ; 第 三 部 分 (第 9 ~ 14 章 ) 讨论 处 理 器 的 内 部 结构 和 组 织 ; 第 四 
部 分 (第 15 ~ 16 章 ) 讨论 处 理 器 中 控制 器 的 内 部 结构 和 微 程 序 设计 的 使 用 ;第 五 部 分 〈 第 17 
~18 章 ) 讨论 并 行 组 织 ， 包 括 对 称 多 处 理 器 、 集 群 系统 和 多 核 体 系 结构 。 

本 书 可 作为 高 等 院 校 计 算 机 及 相关 专业 的 计算 机 体系 结构 课程 教材 或 教学 参考 书 ， 同 时 
也 可 以 作为 从 事 计 算 机 研究 与 开发 的 技术 人 员 的 参考 书 。 

Simplified Chinese edition copyright © 2011 by Pearson Education Asia Limited and China Ma- 
chine Press. 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 各 个 
领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈出 、 
独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 学 科 中 的 许多 
泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 璧 划 了 研究 的 范畴 ， 
还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 益 迫 
切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显得 举 
足 轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 几 十 年 
间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 将 对 我 国 
计算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 大 学 的 必 由 
之 路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 "” 。 自 1998 年 开始 ， 我 们 就 将 工 
作 重 点 放 在 了 效 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson，McGraw-Hill， 
Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 和 良好 的 合作 关系 ,从 他 们 
现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain W. Kernighan, Dennis 
Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, Abraham Silberschatz, Wil- 
liam Stallings, Donald E. Knuth, John L. Hennessy, Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 
以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 
了 这 套 丛书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 瞻 力 囊 助 ， 国 内 的 专家 不 仅 提供 了 中 肯 
的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 的 
传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 品种 ， 
这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 其 影印 版 
“经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 图 书 
有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 教 育 
界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意 
见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 的 工作 提出 建议 或 给 
予 指正 ， 我 们 的 联系 方法 如 下 : 

华章 网 站 : www.hzbook.com 

电子 邮件 : hzjsj@ hzbook.com 

联系 电话 : (010) 88379604 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 

邮政 编码 : 100037 
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William Stallings 是 美国 最 著名 的 计算 机 专业 作家 之 一 ， 他 在 计算 机 体系 结构 、 计 算 机 网 络 和 
信息 安全 等 方面 成 就 卓著 ， 十 次 荣获 美国 教材 与 大 学 作者 协会 颁发 的 “年 度 最 佳 计 算 机 科学 与 
工程 教材 ” 奖 。 本 书 译 自 他 编著 的 《Computer Organization and Architecture; Designing for Perform- 
ance》， 该 书 畅销 欧美 ， 一 直 是 美国 深 受 欢迎 的 大 学 教材 。 该 教材 先后 推出 了 8 版 ， 这 一 版 对 原 
有 内 容 进行 了 彻底 的 修订 和 重组 ,使 新 版 对 计算 机 体系 结构 各 专题 的 阐述 更 先进 、 更 全 面 、 更 清 
Hf o 

作者 编著 本 书 的 目的 是 使 读者 知晓 当代 计算 机 组 成 和 体系 结构 的 设计 原理 和 实现 考虑 ， 并 非 
单纯 地 讲述 概念 或 理论 。 为 此 ， 本 书 选用 了 许多 不 同 机 器 的 例子 来 前 明和 强化 所 提供 的 概念 。 大 
部 分 例子 来 自 两 种 计算 机 系列 : Intel x86 系列 和 ARM (先进 的 RISC 机 器 ) 系列 。 这 两 种 系统 共 
同 概括 了 当前 计算 机 设计 趋势 的 大 部 分 。Intel x86 结构 基本 上 是 一 个 带 有 某 些 RISC 特征 的 复杂 
指令 集 计算 机 (CISC), m ARM 本 质 上 是 一 个 精简 指令 集 计 算 机 〈RISC) 。 两 个 系统 都 利用 了 超 
标量 设计 原则 ， 并 且 都 支持 多 个 处 理 器 和 多 核 配 置 。 

全 书 共 分 为 5 个 部 分 ， 第 一 部 分 〈 第 1 ~2 章 ) 概述 计算 机 组 成 与 体系 结构 ， 并 讨论 计算 机 
的 发 展演 变 、 性 能 设计 与 测评 ; 第 二 部 分 (第 3 ~8 章 ) 介绍 计算 机 的 主要 部 件 及 其 互 连 、cache 
存储 器 、 内 部 存储 器 、 外 部 存储 器 、 输 入 /输出 (WO0) 以 及 计算 机 体系 结构 与 操作 系统 之 间 的 
关系 ; 第 三 部 分 (第 9~14 章 ) 介绍 中 央 处 理 器 ,包括 计算 机 的 运算 、 指 令 集结 构 、 处 理 器 的 
结构 和 功能 、 精 简 指 令 集 计算 机 (RISC)、 指 令 级 并 行 和 超标 量 方法 ; 第 四 部 分 (第 15 ~ 16 章 ) 
讨论 处 理 器 中 控制 器 的 内 部 结构 和 微 程序 设计 技术 ; 第 五 部 分 (第 17 ~ 18 章 ) 研究 并 行 组 织 ， 
包括 对 称 多 处 理 器 、 集 群 系统 和 多 核 体 系 结构 。 本 书 还 具有 许多 有 利于 教学 的 特点 ， 例 如 ，20 
个 独立 的 交互 式 模拟 工具 的 使 用 、 大 量 插图 和 表格 使 讨论 更 清楚 等 ; 每 一 章 均 包含 关键 词 、 思 考 
题 、 习 题 以 及 推荐 的 读物 和 Web 站点; 书 末 附 有 一 个 术语 表 和 参考 文献 ; 本 书包 含 的 大 量 扩展 
性 知识 可 以 从 配套 网 站 http :// www. pearsonhighered.com/stallings 下 载 。 本 书 可 作为 高 等 院 校 计 算 
机 及 其 相关 专业 的 计算 机 体系 结构 课程 教材 或 教学 参考 书 ， 同 时 也 可 以 作为 从 事 计算 机 研究 与 开 
发 的 技术 人 员 的 参考 书 。 

本 书 的 第 0 ~8 章 、 前 言 和 术语 表 由 喜鹊 营 翻 译 , 第 9 ~16 章 、 第 18 章 和 附录 由 吴强 翻译 ， 
第 17 章 由 任 小 西 翻译 。 此 外 ， 喻 品 、 李 冬 妮 、 李 柳 、 张 吉良 、 邓 朋 球 等 研究 生 也 参与 了 部 分 工 
作 。 在 翻译 过 程 中 ， 我 们 参阅 了 张 昆 藏 教授 等 翻译 的 《计算 机 组 织 与 体系 结构 : 性 能 设计 》 (第 
6 版 ， 清 华 大 学 出 版 社 2004 年 出 版 ) ， 在 此 深 表 感谢 ! 

尽管 我 们 从 事 计 算 机 组 成 与 体系 结构 的 教学 和 科研 工作 多 年 ， 在 翻译 过 程 中 本 着 认真 负责 、 
力求 精准 的 精神 ,但 错误 难免 ,希望 广大 读者 批评 指正 。 


译 者 
2011 年 3 月 于 长 沙 
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目标 

这 是 一 本 关于 计算 机 结构 和 功能 方面 的 书 ， 力 求 清晰 完整 地 给 出 当今 计算 机 系统 的 性 质 和 特 
征 。 

这 项 任务 极 具 挑战 性 ， 主 要 有 如 下 几 个 原因 : 首先 ， 有 非常 多 的 产品 类 型 都 冠 以 “计算 机 ” 
的 名 字 ， 从 只 值 几 美 元 的 单片机 到 价值 几 千 万 美元 的 超级 计算 机 。 这 种 多 样 性 不 仅 体现 在 价格 
上 ， 也 体现 在 规模 、 性 能 和 应 用 上 。 其 次 ,计算 机 技术 的 快速 变化 步伐 从 未 停止 过 ， 这 一 直 以 来 
就 是 它 的 特征 。 这 些 变 化 涉及 计算 机 技术 的 所 有 方面 ， 从 用 于 构造 计算 机 部 件 底层 的 集成 电路 技 
术 ， 到 组 合 这 些 部 件 的 并 行 组 织 概念 。 

尽管 计算 机 领域 存在 着 种 类 的 多 样 性 和 变化 的 迅速 性 ， 但 某 些 基本 概念 始终 不 变 。 当 然 ， 这 
些 概 念 的 应 用 取决 于 当前 的 技术 状况 和 设计 者 的 性 能 /价格 目标 。 本 书 的 目的 在 于 深入 讨论 计算 
机 组 成 与 体系 结构 的 基本 原理 和 概念 ， 并 将 它们 运用 到 当代 计算 机 系统 设计 的 问题 上 。 

副标题 (性 能 设计 ) 指出 了 本 书 的 主题 和 采用 的 方法 。 计 算 机 系统 的 高 性 能 设计 历来 都 是 
最 重要 的 ,但 这 一 要 求 从 来 没有 像 现 在 这 样 强烈 和 难以 满足 。 计 算 机 系统 的 所 有 基本 性 能 特征 ， 
包括 处 理 器 速度 、 存 储 器 速度 、 存 储 器 容量 和 互 连 的 数据 速率 ， 都 在 迅速 提高 ， 而 且 是 以 不 同 的 
速率 在 提高 。 这 就 使 得 设计 一 个 实现 性 能 最 大 化 并 考虑 所 有 因素 影响 的 平衡 系统 变 得 非常 困难 。 
于 是 ,计算 机 设计 越 来 越 成 为 一 种 博弈 ， 它 要 以 改变 一 个 领域 的 结构 和 功能 来 补偿 另 一 领域 的 性 
能 失 配 。 我 们 将 会 看 到 ， 这 种 博弈 贯穿 本 书 的 许多 设计 。 

像 任何 系统 一 样 ， 计 算 机 系统 由 一 组 相互 关联 的 部 件 组 成 。 通 过 结构 (部 件 互 连 的 方式 ) 
和 功能 (单个 部 件 的 操作 ) 最 能 表征 一 个 系统 。 而 且 ， 计 算 机 的 组 织 是 层次 化 的 ， 通 过 将 每 个 
主要 部 件 分 解 成 主要 子 部 件 ， 并 描述 各 主要 子 部 件 的 结构 和 功能 ， 可 以 进一步 描述 各 主要 部 件 。 
为 了 清晰 和 易于 理解 ， 本 书 自 顶 向 下 地 描述 这 种 层次 化 组 织 。 

。 计算 机 系统 : 主要 部 件 是 处 理 器 、 存 储 器 和 IO, 

o 处 理 器 : 主要 部 件 是 控制 器 (或 控制 单元 ) 、 寄 存 器 、ALU 和 指令 执行 单元 。 

。 控制 器 : 为 所 有 的 处 理 器 部 件 的 操作 和 协调 提供 控制 信号 。 传 统 上 ， 一 直 使 用 的 是 微 程 

序 实 现 方式 ， 其 主要 部 件 包括 控制 存储 器 、 微 指令 序列 逻辑 和 寄存 器 。 最 近 ， 微 程序 设 
计 已 经 不 占 主导 地 位 ， 但 仍 是 一 种 重要 的 实现 技术 。 

本 书 力求 采用 在 清晰 的 上 下 文中 组 织 新 素材 的 方式 讲解 有 关内 容 ， 以 最 大 限度 地 避免 读者 的 
迷惑 ， 这 样 应 该 比 自 底 向 上 的 讲解 方式 更 好 。 

考察 系统 的 两 个 着 眼 点 是 体系 结构 (机 器 语言 程序 员 可 见 的 系统 属性 ) 和 组 成 (实现 体系 
结构 的 操作 单元 和 它们 的 互 连 ) ， 它 们 将 贯穿 于 全 书 的 讨论 之 中 。 


使 用 的 范例 
本 书 希 望 读者 熟悉 当代 操作 系统 的 设计 原理 和 实现 方法 ， 因 此 ， 纯 概念 或 纯 理 论 的 阐述 是 不 
适合 的 。 为 了 说 明 概 念 并 将 它们 与 现实 世界 中 必须 要 做 的 设计 选择 联系 起 来 ， 本 书 选用 以 下 两 个 
处 理 器 系列 作为 贯穿 全 书 的 范例 : 
e Intel x86 体系 结构 : Intel x86 体系 结构 非常 广泛 地 应 用 于 非 租 入 式 计算 机 系统 。Intel x86 
基本 上 是 一 种 复杂 指令 集 计 算 机 (CISC) ， 但 具有 某 些 RISC 特征 。 目 前 的 x86 系列 成 员 


都 采用 超标 量 体 系 结构 和 多 核 设计 原则 。x86 体系 结构 的 特征 演变 为 学 习 大 多 数 计算 机 体 
系 结构 的 设计 原理 提供 了 一 种 独特 的 案例 。 

e ARM: ARM 众人 式 体系 结构 已 被 证 明 是 应 用 最 广泛 的 戏 入 式 处 理 器 ， 它 应 用 于 手机 、 音 
乐 播放 器 、 远 程 传 感 设备 以 及 很 多 其 他 设备 。ARM 基本 上 是 一 种 精简 指令 集 计 算 机 
(RISC)。 目 前 的 ARM 系列 成 员 都 采用 超标 量 体 系 结构 和 多 核 设 计 原 则 。 

很 多 例子 〈 但 非 全 部 ) 都 出 自 这 两 个 计算 机 系列 : Intel x86 和 ARM 嵌入 式 处 理 器 系列 。 许 

多 其 他 系统 ， 包 括 当代 的 和 历史 上 的 ， 也 提供 了 计算 机 体系 结构 设计 特征 的 重要 案例 。 


本 书 结构 

本 书 由 以 下 五 个 部 分 组 成 : 

。 概论 

。 计算 机 系统 

e 中 央 处 理 器 

e 控制 器 

。 并 行 组 织 ， 包 括 多 核 

本 书 具 有 许多 利于 教学 的 特点 ， 例 如 ， 交 互 式 模拟 工具 的 使 用 、 大 量 插图 和 表格 使 讨论 更 清 
楚 等 。 每 一 章 均 包 含 关 键 词 、 思 考题 和 习题 以 及 推荐 的 读物 和 Web 站 点 。 书 未 还 附 有 术语 表 
( 列 出 了 常用 的 缩写 词 ) 和 参考 文献 。 


读者 对 象 

本 书面 向 高 校 师 生 和 专业 技术 人 员 。 它 可 以 作为 计算 机 科学 、 计 算 机 工程 、 电 气 工程 等 专业 
本 科 生 一 学 期 或 两 学 期 的 教材 。 它 覆盖 了 CS 220 Computer Architecture 课程 要 求 的 所 有 主题 ， 而 
计算 机 体系 结构 是 IEEE/ACM Computer Curricula 2001 的 核心 课程 之 一 。 

对 关注 此 领域 的 专业 技术 人 员 ， 本 书 可 作为 有 参考 价值 的 基础 读物 ， 并 适合 自学 。 


教学 资源 

为 辅助 教学 ， 本 书 提供 了 下 列 资料 : 

。 解 题 手 册 : 解答 各 章 后 面 的 思考 题 和 习题 。 

。 课题 手册 : 提供 各 类 课题 的 详细 安排 目录 。 

。 幻灯 片 : 提供 了 所 有 章节 的 、 适 于 教学 的 幻灯 片 。 

e PDF 文件 : 复制 了 书 中 的 所 有 表格 和 插图 。 

。 试题 库 : 包括 判断 对 错 题 、 多 项 选择 题 、 填 空 题 与 答案 。 

所 有 这 些 支 持 材料 都 在 教师 资源 中 心 (IRC) 。 要 获取 这 些 资源 ， 可 以 从 教师 资源 中 心 
http ;// www. pearsonhighered.com/stallings 下 载 ， 或 者 登录 华章 网 站 (www.hzbook.com) 下 载 。 


网 上 资源 

本 书 网 站 williamstallings.com/COA/COA8e.html 提供 了 与 其 他 相关 站 点 的 链接 、 一 组 有 用 的 
文档 和 勘误 等 。 

本 版 在 Web 站 点 上 更 新 了 一 组 习题 的 有 效 解决 方案 ， 学 生 可 以 通过 做 习题 并 核对 答案 来 加 
深 对 内 容 的 理解 。 


课题 和 其 他 学 生 练习 
许多 教师 都 很 清楚 ， 课 题 训练 是 计算 机 组 成 与 体系 结构 课程 的 重要 部 分 ， 它 可 以 使 学 生 获得 


实践 锻炼 并 强化 所 学 到 的 概念 。 本 书 提供 的 这 方面 的 支持 包括 : 
e 交互 式 模拟 作业 : 稍 后 描述 。 
。 研究 性 课题 : 一 系列 研究 性 作业 ， 指 导 学 生 研 究 Internet 上 的 一 个 特定 课题 并 写 出 报告 。 
。 模拟 性 课题 : 教师 资源 中 心 提供 了 SimpleScalar 和 SMPCache 两 个 模拟 软件 包 。 前 者 可 用 
于 探索 计算 机 组 成 与 体系 结构 的 设计 问题 ; 后 者 为 研究 对 称 多 处 理 器 (SMP) 的 cache 设 
计 问 题 提 供 了 强 有 力 的 教学 工具 。 
汇编 语言 课题 ;使 用 一 种 简化 的 汇编 语言 CodeBlue， 并 提供 了 一 些 基于 流行 的 Core Wars 
游戏 概念 的 作业 。 
阅读 /报告 类 作业 : 每 章 有 一 篇 或 几 篇 文献 论文 列表 ， 可 以 要 求学 生 阅 读 并 写 出 简短 报 


= 
Flo 


写作 作业 : 提供 一 系列 写作 题目 来 帮助 读者 学 习 。 

。 试题 库 : 包括 判断 对 错 题 、 多 项 选择 题 、 填 空 题 与 答案 。 

这 些 课题 和 其 他 练习 为 使 用 本 书 教学 提供 了 方便 ， 教 师 可 根据 需要 酌情 选择 ， 选 择 方法 参见 
附录 A。 


交互 式 模拟 工具 

第 8 版 提供 了 一 些 交 互 式 模拟 工具 ， 这 些 模拟 工具 为 理解 现代 计算 机 系统 的 复杂 设计 特征 提 
供 了 有 力 的 支持 。 总 共有 20 个 交互 式 模拟 工具 用 于 说 明 计 算 机 组 成 与 体系 结构 设计 中 的 关键 功 
能 与 算法 ,在 本 书 的 相应 位 置 用 图 标 来 指明 。 因 为 这 些 工具 可 以 让 用 户 建立 最 初 的 环境 ， 所 以 可 
以 利用 它们 布置 学 生 课外 作业 。 


第 8 版 新 增 内 容 

自 第 7 版 出 版 以 来 ， 计 算 机 组 成 与 体系 结构 领域 又 有 了 不 少 革新 和 进展 。 第 8 版 坚持 全 面 覆 
盖 整 个 领域 ， 并 在 此 基础 上 尽量 跟 上 新 技术 的 步伐 。 为 了 开始 这 个 修订 过 程 ， 讲 授 本 课程 的 几 位 
教授 和 本 领域 的 几 位 专家 对 第 7 版 进行 了 广泛 深入 的 讨论 ， 从 而 使 第 8 版 的 描述 更 清晰 、 更 紧 
凑 ， 图 表 也 进行 了 改进 ， 同 时 增加 了 很 多 课堂 测试 的 习题 。 

除了 为 使 本 书 便于 教学 和 对 用 户 更 友好 所 做 的 这 些 工 作 之 外 ， 本 书 还 有 许多 实质 性 的 改变 。 
第 8 版 虽然 保留 了 与 第 7 版 大 致 相同 的 章节 ,但 重新 改写 并 添加 了 许多 内 容 ， 主 要 包括 : 
交互 式 模拟 工具 : 第 8 版 提供 了 20 个 基于 Web 的 交互 式 模拟 工具 ,涉及 高 速 缓存 
(cache)、 主 存 、LO、 分 支 预测 、 指 令 流水 线 和 向 量 处 理 等 主题 。 
嵌入 式 处 理 器 : 第 8 版 包括 一 些 舱 入 式 处 理 器 以 及 它们 提供 的 独特 的 设计 间 题 。ARM 体 
系 结构 被 用 作 一 个 很 好 的 学 习 案 例 。 
多 核 处 理 器 : 第 8 版 包括 现在 计算 机 体系 结构 最 流行 的 新 进展 一 一 单个 芯片 上 多 处 理 器 
的 使 用 ， 第 18 章 将 会 讨论 这 一 主题 。 
高 速 缓存 : 对 第 4 章 高 速 缓存 的 内 容 进 行 了 全 面 的 修订 、 更 新 和 扩充 ， 涵 盖 了 更 宽泛 的 
技术 领域 ， 并 通过 使 用 大 量 的 图 片 以 及 交互 式 模拟 工具 来 改进 教学 方法 。 
性 能 评估 : 第 2 章 显著 地 扩充 了 对 性 能 评估 的 讨论 ， 增 加 了 对 基准 程序 的 讨论 和 对 阿 姆 
达尔 (Amdahl) 定律 的 分 析 。 
汇编 语言 : 增加 了 一 个 关于 汇编 语言 和 汇编 程序 的 新 附录 。 
可 编程 逻辑 设备 : 在 第 20 章 数字 逻辑 (网 站 上 ) 中 ,扩充 了 对 可 编程 逻辑 设备 (PLD) 
的 讨论 ， 介 绍 了 现场 可 编程 门 阵 列 (FPGA). 
DDR SDRAM: DDR 已 经 成 为 桌面 计算 机 和 服务 器 中 的 主流 主 存 技术 ， 尤 其 是 DDR2 和 
DDR3 。DDR 技术 在 第 5 章 中 介绍 ， 更 详细 的 讨论 参见 附录 天 (网 站 上 ) 。 


。 线性 磁带 开放 协议 (LTO): LTO 已 经 成 为 最 流行 的 “超级 磁带 ”形式 ， 并 广泛 应 用 于 小 
型 和 大 型 的 计算 机 系统 中 ， 尤 其 是 作为 文件 备份 。LTO 在 第 6 章 中 介绍 ， 更 详细 的 讨论 
参见 附录 J〈 网 站 上 ) 。 

对 于 每 个 新 版 本 ， 既 要 保持 合理 的 页 数 又 要 增加 新 的 内 容 ， 是 一 件 困难 的 工作 。 这 是 通过 删 

除 旧 的 内 容 和 精简 描述 实现 的 。 第 8 版 将 不 特别 重要 的 章节 和 附录 放 在 网 上 ， 作 为 独立 的 PDF 
文件 ， 这 既 满 足 了 新 内 容 的 扩充 ， 又 不 增加 本 书 的 厚度 。 
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读者 指南 
本 书 及 其 配套 Web 站 点 介绍 了 大 量 材料 。 本 章 将 为 读者 做 简要 的 概述 。 
0.1 本 书 概要 
本 书 由 五 部 分 组 成 


第 一 部 分 : 概述 计算 机 组 成 与 体系 结构 ， 并 讨论 计算 机 设计 的 发 展演 变 。 

第 二 部 分 : 考察 计算 机 的 主要 部 件 及 其 互 连 ， 这 有 既 包括 部 件 之 间 的 彼此 互 连 ， 也 包括 它们 与 
外 部 世界 的 互 连 。 这 部 分 还 详细 讨论 内 部 存储 器 、 外 部 存储 器 和 输入 /输出 〈I0O) 。 最 后 ， 考 察 
计算 机 体系 结构 与 运行 于 其 上 的 操作 系统 之 间 的 关系 。 

第 三 部 分 : 考察 处 理 器 的 内 部 结构 和 组 织 。 首 先 ， 深 入 讨论 计算 机 的 运算 ， 然 后 考察 指令 集 
结构 ， 其 余 章节 研究 处 理 器 的 结构 和 功能 ， 包 括 精简 指令 集 计 算 机 〈RISC) 和 超标 量 方法 的 
讨论 。 

第 四 部 分 : 讨论 处 理 器 中 控制 单元 的 内 部 结构 和 微 程 序 设 计 的 使 用 。 

第 五 部 分 : 研究 并 行 组 织 ， 包 括 对 称 多 处 理 器 、 集 群 系统 和 多 核 体 系 结构 。 

本 书 网 站 中 的 许多 在 线 章 节 和 附录 包含 了 与 本 书 相关 的 一 些 附 加 主题 。 

每 一 部 分 的 开头 给 出 了 这 一 部 分 所 包含 的 各 章 的 简要 介绍 。 

本 书 的 目的 是 使 读者 知晓 当代 计算 机 组 成 和 体系 结构 的 设计 原理 和 实现 考虑 。 因 此 ， 纯 概 
念 或 纯 理 论 的 讲述 是 不 妥当 的 。 本 书 选用 了 许多 不 同 机 器 的 例子 来 前 明和 强化 所 提供 的 概念 。 
很 多 (但 不 意味 全 部 ) 例子 来 自 两 种 计算 机 系列 : Intel x86 系列 和 ARM (先进 的 RISC 机 器 ) A 
列 。 这 两 种 系统 涵盖 了 当前 计算 机 设计 趋势 的 大 部 分 。Intel x86 结构 基本 上 是 一 个 带 有 某 些 
RISC 特征 的 复杂 指令 集 计算 机 (CISC), ， 而 ARM 本 质 上 是 一 个 精简 指令 集 计算 机 (RISC)。 两 
个 系统 都 利用 了 超标 量 设计 原则 ， 并 且 都 支持 多 个 处 理 器 和 多 核 配置 。 


0.2 ”导读 

本 书 采用 自 项 向 下 的 方法 来 介绍 。 正 如 我 们 在 1.2 节 中 详细 讨论 的 那样 ， 计 算 机 系统 可 以 看 
成 是 一 种 层次 结构 。 在 顶层 ,我 们 关注 计算 机 的 主要 功能 部 件 : 处 理 器 、LO、 存 储 器 、 外 围 设 
备 。 第 二 部 分 考察 这 些 功 能 部 件 ， 并 且 详 细 分 析 除 处 理 器 以 外 的 各 个 功能 部 件 。 这 种 方法 使 我 们 
能 够 了 解 驱 动 处 理 器 设计 的 外 部 功能 需要 ， 从 而 导出 第 三 部 分 。 在 第 三 部 分 中 ,我 们 将 详细 地 考 
察 处 理 咒 。 由 于 有 了 第 二 部 分 介绍 的 知识 ， 因 此 ， 在 第 三 部 分 中 ， 我 们 可 以 看 清 必须 做 的 设计 决 
定 ， 以 便 处 理 器 能 够 支持 计算 机 系统 的 全 部 功能 。 然 后 ， 在 第 四 部 分 ， 我 们 讨论 控制 单元 ， 它 是 
处 理 器 的 心脏 。 而 且 控 制 单元 的 设计 最 好 能 利用 第 三 部 分 介绍 的 处 理 器 执行 的 功能 来 解释 。 最 
后 ， 第 五 部 分 介绍 多 处 理 器 系统 ， 包 括 集群 系统 、 多 处 理 器 计算 机 和 多 核 计算 机 。 


0.3 为 何 要 学 习 计算 机 组 成 和 体系 结构 

(IEEE/ACM 计算 机 课程 2001》 是 由 IEEE (电气 与 电子 工程 师 学 会 ) 的 计算 机 学 会 和 ACM 
(美国 计算 机 协会 ) 共同 组 织 的 Joint Task Force on Computing Curricula 制定 的 新 世纪 第 一 个 计算 
机 课程 大 纲 ， 它 将 计算 机 体系 结构 列 为 所 有 计算 机 科学 和 计算 机 工程 专业 的 学 生 必修 的 核心 课 
程 之 一 。 该 报告 中 指出 : 

计算 机 是 计算 的 核心 。 若 没有 计算 机 ,今天 的 大 多 数 计算 机 学 科 将 只 是 理论 数学 的 分 支 。 对 
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于 当今 任何 计算 领域 的 专业 人 员 而 言 ， 不 应 当 把 计算 机 只 看 成 是 魔术 般 地 执行 程序 的 黑匣子 ， 
而 应 当 要 求 所 有 计算 机 专业 的 学 生 对 计算 机 系统 的 功能 部 件 、 特 征 、 性 能 以 及 它们 之 间 的 相互 
作用 有 某 种 程度 的 理解 和 正确 评价 ， 当 然 这 里 也 有 实践 的 关联 性 。 学 生 需 要 理解 计算 机 体系 结 
构 ， 以 便 更 好 地 编制 程序 使 其 在 实际 机 器 上 高 效 运行 。 在 选择 使 用 的 系统 时 ， 他 们 应 该 能 够 理解 
各 种 部 件 间 的 权衡 ， 例 如 CPU 的 时 钟 速率 与 内 存 的 大 小 权衡 。 

《计算 机 工程 2004 课程 指导 》 是 Task Force 小 组 的 一 个 更 近 版 本 ， 它 强调 计算 机 组 成 与 体系 
结构 课程 的 重要 性 如 下 : 

计算 机 体系 结构 是 计算 机 工程 的 一 个 关键 部 件 ， 在 业 的 计算 机 工程 师 应 该 对 这 个 主题 有 实 
践 性 的 理解 ， 它 关系 到 中 央 处 理 单元 的 设计 与 组 织 ， 以 及 集成 CPU 到 计算 机 系统 本 身 的 所 有 方 
面 。 体 系 结构 向 上 可 以 拓展 到 计算 机 软件 ， 因 为 处 理 器 的 架构 必须 与 操作 系统 和 系统 软件 结合 ， 
没有 计算 机 体系 结构 的 知识 是 很 难 设 计 出 一 个 很 好 的 操作 系统 的 。 此 外 ， 计 算 机 设计 者 为 了 实 
现 优化 的 系统 结构 又 必须 掌握 软件 方面 的 知识 。 

计算 机 系统 结构 课程 必须 完成 多 个 目标 ， 它 必须 提供 一 个 计算 机 系统 的 整个 概貌 ， 以 及 教 
会 学 生 操作 典型 的 计算 机 系统 。 它 必须 覆盖 基本 的 原理 ， 同 时 承认 现 有 的 商业 系统 的 复杂 性 。 理 
想 上 ， 它 应 该 加 强 计算 机 工程 中 其 他 领域 的 一 些 普遍 概念 ， 例 如 ， 寄 存 器 间接 寻 址 应 加 强 C 语 
言 中 的 指针 概念 。 最 后 ， 学 生 必须 理解 各 种 外 部 设备 如 何 相 互 结 合 以 及 它们 如 何 与 CPU 相连 接 。 

文献 [CLEM00] 给 出 了 作为 学 习 计算 机 体系 结构 理由 的 如 下 例子 : 

(1) 假设 一 个 大 学 毕业 生 进 入 一 个 企业 工作 ， 被 要 求 为 一 个 大 型 组 织 选择 一 台 性 价 比 最 高 的 
计算 机 。 他 将 面临 各 种 各 样 的 选择 ， 例 如 更 大 的 高 速 缓存 或 更 高 的 时 钟 速率 ， 理 解 设备 之 间 的 相 
互 关联 是 做 出 决定 所 必要 的 。 

(2) 许多 处 理 器 不 是 用 于 PC 机 或 服务 器 ， 而 是 用 于 嵌入 式 系统 ， 如 肉 入 在 智能 汽车 电子 控 
制 器 这 类 实时 系统 或 更 大 的 系统 中 ， 设 计 者 可 以 用 C 语言 给 处 理 器 编程 。 调 试 系统 时 可 能 会 使 
用 逻辑 分 析 仪 ， 它 能 显示 引擎 传感器 发 出 的 中 断 请 求 与 机 器 级 代码 间 的 相互 关系 。 

(3) 计算 机 体系 结构 使 用 的 概念 也 能 应 用 到 其 他 课程 中 。 特 别 是 ， 计 算 机 对 程序 设计 语言 
和 操作 系统 提供 结构 性 支持 的 方式 ， 强 化 了 这 些 领域 的 概念 。 

正如 仔细 阅读 本 书目 录 时 所 看 到 的 ， 计 算 机 组 成 和 体系 结构 包括 了 范围 广泛 的 设计 问题 和 
概念 。 对 这 些 概 念 有 一 个 好 的 、 全 面 的 理解 ， 不 仅 对 今天 其 他 领域 的 学 习 而 且 对 毕业 后 的 工作 都 
是 有 益 的 。 


0.4 ARMS Web 资源 


Internet 和 Web 网 上 有 许多 有 用 的 资源 ， 它 们 提供 对 本 书 的 支持 ， 并 且 帮 助 读 者 跟踪 此 领域 
的 最 新 进展 。 


0.4.1 本 书 的 Web 站 点 


本 书 的 Web 站 点 是 WilliamStallings.com/COA/COA8e.html。 关 于 此 站 点 的 详细 描述 请 见 本 书 
的 开始 部 分 。 

此 Web 站 点 有 本 书 的 勘误 表 ， 它 列 出 了 已 发 现 的 错误 ， 并 将 随时 更 新 。 如 果 读 者 发 现 了 书 
中 的 错误 ， 请 给 作者 发 E-mail。WilliamStallings.com 还 有 作者 其 他 著作 的 勘误 表 。 

作者 还 维护 着 计算 机 科学 学 生 资源 站 点 ， 网 址 为 WilliamStallings.com/StudentSuport.html。 该 
站 点 的 目的 是 为 计算 机 科学 的 学 生 和 专业 人 士 提供 文档 、 信 息 和 链接 。 其 链接 和 文档 被 组 织 成 
如 下 6 类: 

e Math (数学 ) : 包括 基本 的 数学 复习 资料 ， 排 队 论 和 人 门 、 数 值 系统 的 初级 读物 以 及 与 许 

多 数学 站 点 的 链接 。 
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How-to (如 何 做 ) : 为 解决 家 庭 作 业 问 题 、 写 技术 报告 和 准备 技术 报告 所 提供 的 建议 和 
指导 。 

Research resources (研究 资源 ) : 到 重要 论文 、 技 术 报 告 和 文献 目录 的 链接 。 
Miscellaneous (混杂 资源 ) : 其 他 各 类 有 用 的 资料 和 链接 。 

Computer science careers: 为 计算 机 科学 从 业 人 员 准 备 的 有 用 文献 和 链接 。 

Humor and other diversions ( 幽默 与 娱乐 ) : 您 可 以 放松 您 的 心情 一 小 会 儿 。 


0.4.2 ”其 他 Web 站 点 


还 有 许多 其 他 Web 站 点 提供 了 与 本 书 主题 相关 的 信息 ， 在 后 续 的 各 章 中 ， 可 以 在 参考 文献 
和 Web 站 点 部 分 找到 列 出 的 特殊 Web 站 点 。 因 为 Web 站 点 地 址 经 常 发 生变 动 ， 故 本 书 未 提供 这 
些 站 点 的 URL， 但 在 本 书 中 列 出 的 所 有 Web 站 点 都 可 以 找到 这 些 站 点 的 相近 链接 。 本 书 未 提 到 
的 其 他 链接 将 随时 添加 到 Web 站 点 中 。 

下 列 站 点 提供 有 关 计 算 机 组 成 与 体系 结构 的 重要 信息 : 

e WWW Computer Architecture Home Page (WWW 计算 机 体系 结构 主页 ) : 提供 有 关 计 算 
机 体系 结构 领域 研究 人 员 的 全 面 检索 信息 ， 包 括 结构 小 组 的 名 址 和 课题 、 技 术 组 织 、 文 
献 、 成 员 和 商业 信息 。 
CPU Info Center (CPU 信息 中 心 ) : 专门 提供 处 理 器 的 信息 ， 包 括 技术 论文 、 产 品 信息 
和 最 近 发 布 的 公告 。 
Processor Emporium ( 处 理 器 商业 中 心 ) : 提供 有 趣 和 有 益 的 信息 集合 。 
ACM Special Interest Group on Computer Architecture ( 美国 计算 机 协会 的 计算 机 体系 结 
HEHA): 提供 SIGARCH 的 活动 和 出 版 消息 。 
IEEE Technical Committee on Computer Architecture ( 美国 电气 电子 工程 师 学 会 的 计算 
机 体系 结构 技术 委员 会 ) : 提供 TCAA 的 业务 通信 。 


0.4.3 USENET 新 闻 组 


JLA USENET 新 闻 组 致力 于 讨论 计算 机 组 成 和 结构 的 某 些 方面 。 与 所 有 实际 新 闻 组 一 样 ， 这 
里 也 常 充斥 着 令 人 不 感 兴 趣 的 文章 ， 但 尝试 一 下 ， 看 看 是 否 有 感 兴趣 的 内 容 ， 仍 是 值得 的 。 最 相 
关 的 几 个 新 闻 组 如 下 所 示 。 

e comp.arch: 讨论 计算 机 体系 结构 的 综合 新 闻 组 ， 经 常 有 相当 好 的 文章 。 

e comp.arch.arithmetic: 讨论 计算 机 算法 和 标准 的 新 闻 组 。 

e comp.arch.storage: 讨论 的 范围 从 产品 到 技术 ， 再 到 实际 应 用 问题 。 

e comp.parallel: 讨论 并 行 计 算 机 及 其 应 用 。 
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第 一 部 分 为 本 书 其 余部 分 提供 了 背景 知识 以 及 各 章节 之 间 的 联系 ， 并 给 出 了 计算 机 组 成 与 
体系 结构 的 基本 概念 。 

第 1 章 导论 

第 工 章 介绍 了 计算 机 作为 层次 系统 的 概念 。 一 台 计 算 机 可 以 看 成 是 由 一 些 部 件 组 成 的 ， 其 功 
能 由 各 个 部 件 的 集合 功能 来 决定 。 每 个 部 件 又 是 通过 其 内 部 结构 和 功能 来 描述 的 。 第 1 章 按 层次 
化 观点 介绍 了 计算 机 的 主要 层次 ,而 本 书 的 其 他 各 章 都 是 根据 这 些 层次 由 上 至 下 组 织 的 。 

第 2 章 计算 机 的 演变 和 性 能 

第 2 章 有 两 个 目的 。 首 先 讨论 计算 机 技术 发 展 的 简 史 ， 这 是 引入 计算 机 组 成 和 体系 结构 基本 
概念 的 轻松 而 有 趣 的 方式 。 计 算 机 系统 设计 聚焦 于 性 能 ， 本 章 接着 介绍 影响 性 能 的 技术 发 展 趋 
势 ， 并 概述 为 实现 平衡 、 有 效 的 系统 性 能 而 采用 的 各 种 技术 和 策略 。 
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本 书 是 关于 计算 机 结构 和 功能 的 书 ， 其 目标 是 尽 可 能 清晰 、 完 整地 介绍 当代 计算 机 系统 的 
性 质 和 特征 。 这 项 任务 颇具 挑战 性 ， 主 要 原因 有 两 方面 。 

首先 ， 有 各 种 各 样 的 产品 ， 从 几 美 元 的 单片机 到 价值 几 千 万 美元 的 超级 计算 机 ， 都 可 以 称 为 
计算 机 。 多 样 性 不 仅 表现 在 计算 机 的 成 本 上 ， 而 且 还 表现 在 计算 机 的 体积 、 性 能 和 应 用 上 。 其 
次 , 计算 机 的 发 展 步伐 相当 快 ， 绝 无 停顿 。 这 些 发 展 表现 在 计算 机 技术 的 各 个 方面 ， 从 用 于 构成 
计算 机 底层 的 集成 电路 技术 ， 到 越 来 越 广泛 采用 的 将 这 些 部 件 组 合 起 来 的 并 行 组 织 技术 。 

尽管 计算 机 领域 富有 多 样 性 并 且 仍 在 改变 ， 但 始终 存在 一 些 基 本 的 概念 。 当 然 ， 这 些 概 念 的 
应 用 依赖 于 技术 的 发 展 状况 ， 以 及 设计 者 所 要 达到 的 性 能 /价格 目标 。 本 书 的 目的 在 于 深入 讨论 
计算 机 组 成 与 体系 结构 的 基本 原理 ， 并 将 它们 应 用 到 当代 计算 机 设计 的 问题 上 。 本 章 介 绍 将 要 
采用 的 描述 方法 。 


1.1 计算 机 组 成 与 体系 结构 

在 描述 计算 机 系统 时 ， 常 常 要 区 分 计算 机 体系 结构 和 计算 机 组 成 这 两 个 基本 概念 。 虽 然 很 
难 给 出 这 两 个 术语 的 精确 定义 , 但 对 它们 所 涉及 的 领域 存在 着 共识 ( 见 文献 [VRAN80 ] 、 
[SIEW82] 和 [BELL78a]), 一 种 有 趣 的 可 供 选 择 的 观点 可 参见 文献 [ REDD76 ] 。 

计算 机 体系 结构 是 那些 对 程序 员 可 见 的 系统 属性 ， 换 名 话说， 这些 属 性 直接 影响 到 程序 的 
人 逻辑 执行 。 计 算 机 组 成 是 实现 结构 规范 的 操作 单元 及 其 相互 连接 。 例 如 ,体系 结构 的 属性 包括 指 
令 集 、 用 来 表示 各 种 数据 类 型 (例如 ， 数据、 字符 ) 的 比特 数 、 输 入 输出 机 制 以 及 内 存 寻 址 技 
术 。 组 成 的 属性 包括 那些 对 程序 员 可 见 的 硬件 细节 ， 如 控制 信号 、 计 算 机 和 外 设 的 接口 以 及 存储 
器 使 用 的 技术 。 

例如 ， 计 算 机 是 否 有 乘法 指令 是 体系 结构 设计 的 问题 。 而 这 条 指令 是 由 特定 的 乘法 单元 实 
现 ， 还 是 通过 重复 使 用 系统 的 加 法 单元 来 实现 ， 则 是 组 成 的 问题 。 组 成 基于 乘法 单元 使 用 的 预期 
频 度 、 两 种 方案 的 相对 速度 以 及 特定 乘法 单元 的 成 本 和 物理 尺寸 等 因素 。 

无 论 是 过 去 还 是 现在 ， 了 解体 系 结构 与 组 成 之 间 的 差别 都 是 很 重要 的 。 很 多 计算 机 制造 商 
会 提供 系列 机 产品 ， 它 们 有 着 相同 的 体系 结构 ， 但 组 成 是 不 相同 的 ， 因 此 ， 同 一 系列 中 不 同型 号 
的 计算 机 的 价格 和 性 能 也 不 相同 。 进 一 步 来 说 ， 一 种 特殊 的 体系 结构 可 以 存在 多 年 ， 并 且 覆 盖 多 
种 不 同 的 计算 机 型 号 ， 但 它 的 组 成 则 随 着 技术 的 进步 而 不 断 更 新 。 这 种 现象 的 一 个 突出 例子 是 
IBM System/370 体系 结构 ， 这 种 架构 于 1970 年 推出 ， 包 括 多 种 型 号 。 低 需求 的 客户 可 以 购买 较 
便宜 、 速 度 较 慢 的 型 号 ， 如 果 今 后 要 求 提 高 了 ， 可 以 升级 到 更 贵 的、 速度 更 快 的 型 号 ， 而 不 必 丢 
弃 已 经 开发 的 软件 。 近 几 年 ，IBM 通过 改进 技术 推出 了 许多 新 型 号 来 蔡 代 旧 的 型 号 ， 为 用 户 提供 
高 速 、 低 价 或 两 者 兼备 的 产品 。 这 些 新 型 号 保留 了 同样 的 体系 结构 ， 因 而 保障 了 用 户 的 软件 资 
源 。 值 得 注意 的 是 ，System/370 体系 结构 经 过 几 次 增强 ,不 但 生存 至 今 ， 而且 仍 是 IBM 的 旗舰 
产品 。 

在 被 称 之 为 微 计算 机 的 一 类 计算 机 系统 中 ， 体 系 结构 和 组 成 的 关系 非常 紧密 。 技 术 的 更 新 
不 仅 影响 了 计算 机 的 组 成 ， 而 且 还 导致 了 更 强大 和 更 复杂 的 体系 结构 。 通 常 ， 越 小 的 机 器 ， 新 旧 
两 代 之 间 的 兼容 性 要 求 越 少 ， 因 此 组 成 和 体系 结构 设计 决策 的 关系 就 更 加 紧密 。 关 于 它 的 一 个 
有 趣 的 例子 就 是 精简 指令 集 计算 机 (RISC) ， 本 书 将 在 第 13 章 进行 深入 的 讨论 。 

本 书 介 绍 计算 机 组 成 和 计算 机 体系 结构 两 个 方面 的 内 容 ， 或 许 更 强调 组 成 方面 的 内 容 。 但 


是 ， 计 算 机 组 成 的 设计 必须 遵照 特定 的 体系 结构 规范 ， 因 此 ， 对 组 成 的 深入 论述 也 要 求 对 体系 结 
构 有 同样 细致 的 考察 。 


1.2 ”结构 和 功能 
计算 机 是 一 个 复杂 的 系统 ， 当 代 计 算 机 包含 数 百 万 个 电子 元 件 ， 那 么 ， 怎 样 才能 清楚 地 描述 
它们 呢 ? 关键 就 在 于 认识 包括 计算 机 在 内 的 大 多 数 复杂 系统 的 分 层 性 质 [SIM096 ] 。 层 次 系统 是 


一 系列 互相 关联 的 子 系统 ， 每 个 子 系统 又 在 结构 上 分 层 ， 直 到 分 成 我 们 所 能 达到 的 一 些 基本 子 
系统 的 最 低级 。 

复杂 系统 的 层次 特性 是 设计 和 描述 它们 的 基础 。 设 计 者 每 次 只 需要 处 理 系统 的 某 个 特定 层 
次 即 可 。 在 每 一 层 中 ， 系 统 由 一 组 部 件 及 其 相互 关联 所 组 成 。 每 一 层 的 行为 仅仅 依赖 于 系统 下 一 
层 更 为 简单 的 抽象 特征 。 在 每 一 层 上 ， 设 计 者 关心 的 是 结构 和 功能 。 

。 结构 : 部 件 相互 关联 的 方法 。 

。 功能 : 作为 结构 组 成 部 分 的 单个 独立 部 件 的 操作 。 

根据 描述 ， 有 两 种 选择 : 由 底层 开始 ， 向 上 建立 完善 的 描述 ; 或 者 从 项 层 开 始 ， 将 系统 分 解 
成 各 个 子 部 分 。 许 多 领域 的 事实 证 明 ， 自 项 向 下 的 方法 是 最 清晰 且 最 有 效 的 方法 [WEIN75 ] 。 

本 书 采用 的 方法 也 遵循 这 一 观点 ,将 自 项 向 下 地 描述 计算 机 系统 。 从 系统 的 主要 部 件 开始 ， 
描述 它 的 结构 和 功能 ， 然 后 逐 级 深入 推进 到 层次 结构 的 底层 。 本 节 的 其 余部 分 将 为 这 种 逐 级 推 
进 的 描述 提供 简短 的 概述 。 


1.2.1 功能 


从 本 质 上 来 说 ,计算 机 的 结构 和 功能 都 很 简单 。 图 1-1 描述 了 计算 机 所 能 执行 的 基本 功能 ， 
概括 起 来 包含 4 项 : 数据 处 理 、 数 据 存储 、 数 据 传送 、 控 制 。 

当然 ,计算机 必须 能 处 理 数据 。 数 据 可 以 有 多 种 形式 ,处理 的 要 求 也 很 广泛 。 但 是 我 们 将 看 
到 数据 处 理 的 基本 方法 或 类 型 只 有 几 种 。 

计算 机 存储 数据 也 很 重要 。 即 使 计算 机 最 简单 地 处 理 数据 (例如 ， 数 据 输入 并 处 理 、 结 果 
直接 输出 ) ， 它 至 少 也 必须 在 某 个 特定 的 时 刻 临 时 存储 它 正 在 运算 的 数据 值 。 因 此 ， 计 算 机 至 少 
要 有 短期 数据 存储 的 功能 。 计 算 机 长 期 存储 数据 的 功能 也 同样 重要 。 存 储 在 计算 机 中 的 数据 文 
件 可 以 用 于 以 后 的 检索 或 更 新 。 

计算 机 必须 能 在 自身 和 外 界 之 间 传 送 数据 。 计 算 机 的 操作 包含 作为 数据 源 或 者 目的 地 的 设 
备 。 当 数据 从 直接 与 计算 机 相连 的 设备 中 发 送 或 接收 时 ， 这 个 过 程 被 称 为 输入 输出 《LO) ， 而 
这 个 设备 被 称 为 外 围 设备 (peripheral) 。 当 数据 传 至 更 远 处 ， 或 从 远方 设备 接收 时 ， 这 个 过 程 称 
为 数据 通信 。 

最 后 ， 必 须 对 这 3 种 功能 进行 控制 。 这 种 控制 功能 最 终 是 由 给 计算 机 提供 指令 的 人 来 施加 
的 。 在 计算 机 内 部 ， 控 制 器 根据 这 些 指令 管理 计算 机 的 资源 ， 并 协调 各 个 功能 部 件 的 性 能 。 

在 这 种 通常 讨论 的 层次 上 ， 能 够 执行 的 操作 非常 少 。 图 1-2 描述 了 4 种 可 能 的 操作 类 型 。 计 
算 机 可 以 作为 数据 传送 功能 的 设备 〈 如 图 1-2a 所 示 ) ， 简 单 地 将 数据 从 一 个 外 围 设备 或 通信 线路 
传 到 男 一 个 。 计 算 机 同样 可 以 作为 数据 存储 功能 的 设备 (如 图 1-2b 所 示 ) ， 将 数据 从 外 部 环境 传 
送 到 计算 机 的 存储 器 ( 读 ) ， 反 之 亦 然 ( 写 )。 最 后 的 两 个 图 描述 了 涉及 数据 处 理 的 操作 ， 被 处 
理 的 数据 或 者 在 存储 器 中 (如 图 1-2c Stay), 或 者 在 存储 器 与 外 部 环境 之 间 的 路 径 中 (如 图 1-2d 
所 示 )。 

前 面 的 讨论 似乎 过 于 概括 ， 但 即使 在 计算 机 结构 的 最 高 层次 ， 区 分 许多 不 同 的 功能 仍 是 可 
能 的 。 这 里 引用 文献 [SIEW82] 中 的 一 段 话 : “为 适应 功能 而 改变 计算 机 的 结构 的 情况 很 少 发 
生 。 计 算 机 的 通用 性 是 根本 ， 所 有 的 功能 专门 化 均 发 生 在 编程 阶段 ， 而 不 是 设计 阶段 。 
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操作 环境 
(数据 的 源 和 目标 ) 





图 1-1 计算 机 的 功能 图 1-2 可 能 的 计算 机 操作 


1.2.2 ”结构 


图 1-3 是 对 计算 机 尽 可 能 简单 的 描述 。 计 算 机 是 以 某 种 方式 与 其 外 部 环境 交互 的 实体 ， 通 
常 ， 它 与 外 部 环境 的 所 有 连接 可 以 划分 为 外 围 设 备 和 通信 线路 ， 我 们 
将 在 后 面 对 这 两 种 连接 进行 讨论 。 és = 

但 本 书 更 关心 的 是 计算 机 本 身 的 内 部 结构 ， 如 图 1-4 所 示 。 有 4 FQ | 
种 主要 的 结构 组 件 : 

e 中 央 处 理 单元 (CPU): 它 控制 计算 机 的 操作 并 且 执 行 数据 处 

理 功能 ,通常 简单 地 被 称 为 处 理 器 。 

© 主 存储 器 : 存储 数据 。 

© 1/O: 在 计算 机 及 其 外 部 环境 之 间 传 输 数 据 。 

o 系统 互 连 : 为 CPU、 主 存储 器 和 IO 之 间 提 供 一 些 通信 机 制 。 

系统 互 连 常见 的 例子 是 利用 系统 总 线 ， 它 由 一 系列 导线 组 成 ， 所 有 其 他 组 件 连接 在 导线 上 。 

上 述 各 种 组 件 可 能 有 一 个 或 者 多 个 ， 但 传统 上 ， 处 理 器 仅仅 只 有 一 个 。 近 年 来 ， 在 单机 系统 
中 采用 多 个 处 理 器 的 情况 越 来 越 多 。 随 着 内 容 的 深入 ， 本 书 会 涉及 和 讨论 有 关 多 处 理 器 系统 的 
设计 问题 ， 第 五 部 分 将 专门 讨论 这 样 的 系统 。 

第 二 部 分 将 详细 地 考察 以 上 每 个 组 件 。 但 对 我 们 来 说 ， 最 有 趣 的 、 在 某 种 程度 上 也 是 最 复杂 
的 组 件 是 CPU， 其 主要 结构 组 件 如 下 所 示 : 

e 控制 单元 : 控制 CPU 以 至 于 整个 计算 机 的 操作 。 

。 算术 逻辑 单元 (ALU): 执行 计算 机 的 数据 处 理 功能 。 

。 寄存 器 : 提供 CPU 的 内 部 存储 。 

e CPU 内 部 互 连 : 提供 控制 器 、ALU 和 寄存 器 之 间 的 某 种 通信 机 制 。 

第 三 部 分 将 仔细 讨论 以 上 各 个 部 件 ， 我 们 将 看 到 使 用 并 行 和 流水 线 技 术 所 带 来 的 复杂 性 。 
最 后 ， 实 现 控制 器 的 方法 有 多 种 ， 一 种 常用 的 方法 是 征程 序 的 实现 技术 。 从 根本 上 讲 ， 微 程序 控 





图 1-3 计算 机 
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制 器 通过 执行 一 系列 的 微 指令 来 操作 ， 而 微 指令 定义 了 控制 器 的 功能 。 使 用 这 种 方法 ， 控 制 器 的 
结构 可 以 描述 为 图 1-4 所 示 ， 本 书 在 第 四 部 分 将 会 讨论 这 种 结构 。 





图 1-4 计算 机 : 顶层 结构 


13 ”关键 词 和 思考 题 


关键 词 

arithmetic and logic unit (ALU): 算术 逻辑 单元 control unit; 控制 器 ， 控 制 单元 

control processing unit (CPU); 中 央 处 理 单元 ， 中央 input-output (IO) : 输入 /输出 
处 理 器 main memory: 主 存 

computer architecture: 计算 机 体系 结构 ， 计 算 机 系统 ”processor: 处 理 器 
结构 registers: 寄存 器 

computer organization: 计算 机 组 成 ， 计 算 机 组 织 system bus: 系统 总 线 

思考 题 


1.1 计算 机 组 成 与 计算 机 体系 结构 在 概念 上 有 何 区 别 ? 
1.2 计算 机 结构 与 计算 机 功能 在 概念 上 有 何 区 别 ? 
1.3 计算 机 的 四 个 主要 功能 是 什么 ? 

1.4 列 出 并 概要 定义 计算 机 的 主要 结构 部 件 。 

1.5 列 出 并 概要 定义 处 理 器 的 主要 结构 部 件 。 
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计算 机 的 演变 和 性 能 


本 章 要 点 


。 计算 机 的 发 展 历史 主要 由 提高 处 理 器 速度 、 减 小 部 件 久 寸 、 增 大 存储 容量 、 加 快 VO 能 
力 和 速度 来 表征 。 
导致 处 理 器 速度 大 幅度 提高 的 一 个 关键 因素 是 ,缩减 微 处 理 器 部 件 的 尺寸 ， 即 减少 部 件 
间 的 距离 ， 从 而 提高 速度 。 然 而 近年 来 在 速度 上 的 真正 增益 却 是 来 自 于 处 理 器 的 组 成 ， 
这 包括 流水 线 处 理 技术 和 并 行 执行 技术 的 大 量 使 用 ， 以 及 推测 执行 技术 的 使 用 (推测 执 
行 技术 可 使 将 来 可 能 需要 的 指令 提前 探测 性 的 执行 )。 所 有 这 些 技术 的 出 发 点 是 ， 最 大 限 
度 地 使 处 理 器 保持 运行 状态 。 
计算 机 系统 设计 的 一 个 关键 问题 是 在 各 元 器 件 之 间 的 性 能 平衡 ， 以 便 在 一 个 领域 内 所 获 
得 的 性 能 增益 不 被 另 一 领域 的 滞后 所 妨碍 。 特 别 是 ， 处 理 器 速度 的 提高 远 超出 存储 器 存 
储 速度 的 提高 ， 因 此 ， 包 括 高 速 缓存 技术 、 从 存储 器 到 处 理 器 的 更 宽 的 数据 路 径 和 更 知 
能 的 存储 芯片 等 多 种 技术 ， 用 来 补偿 这 种 平衡 的 失调 。 

本 章 首先 介绍 计算 机 的 发 展 简 史 ， 这 一 历史 不 但 其 本 身 令 人 感 兴趣 ， 而 且 也 是 为 了 概述 计 
算 机 的 结构 和 功能 。 然 后 ， 讨 论 性 能 问题 。 在 贯穿 本 书 的 介绍 过 程 中 ， 将 一 直 坚 持 “ 计 算 机 资 
源 的 平衡 利用 ”的 思想 。 最 后 ， 将 简要 介绍 贯穿 本 书 的 两 个 关键 例子 : Intel x86 和 ARM 系列 处 
理 器 。 


2.1 计算 机 简 史 


2.1.1 第 一 代 : 真空 管 

1. ENIAC 

由 宾夕法尼亚 大 学 设计 并 建造 的 ENIAC (Electronic Numerical Integrator And Computer, E F 
数字 积分 器 和 计算 器 ) 是 世界 上 第 一 台 通 用 电子 数字 计算 机 。 这 个 项 目 是 为 了 满足 美国 在 第 二 
次 世界 大 战 时 的 需要 ， 当 时 军队 的 弹道 研究 实验 室 (BRL) ， 一 个 负责 开发 新 式 武器 的 射程 和 弹 
道 表 的 机 构 ， 在 提供 数据 表 的 精确 性 和 及 时 性 上 遇 到 了 困难 。 没 有 这 些 发 射 表 ， 新 式 武器 和 火炮 
对 炮 手 来 说 是 没有 用 处 的 。BRL 雇用 了 200 多 人 ， 使 用 桌面 计算 器 来 求解 所 需要 的 火炮 公式 。 为 
单 件 武器 提供 数据 表 将 耗费 一 个 人 几 小 时 ， 甚 至 几 天 时 间 。 

宾夕法尼亚 大 学 电子 工程 系 的 约翰 莫 克 利 教授 和 他 的 一 个 研究 生 约 其 ' 埃 克 特 ， 计 划 采 
用 真空 管 建造 一 台 通 用 计算 机 ， 用 于 满足 BRL 的 应 用 需求 。1943 年 ， 这 个 计划 被 军 方 采纳 ， 
ENIAC 项 目 开 始 启动 。 最 终 建造 出 来 的 机 器 体积 庞大 ， 重 约 30 吨 ， 占 地 1500 平方 英尺 ,采用 了 
1.8 万 多 个 真空 管 。 它 工作 时 ， 消 耗 了 140kW 的 功率 。 但 它 比 任何 电子 机 械 计算 器 要 快 许多 ， 每 
秒 能 执行 5000 次 加 法 。 

ENIAC 是 一 台 十 进 制 ( 而 非 二 进 制 ) 机 器 ， 也 就 是 说 ， 其 数字 是 以 十 进 制 表示 ， 而 且 算 法 
也 是 以 十 进 制 完 成 的 。 其 存储 器 包含 20 个 累加 器 ， 每 个 都 能 保存 一 个 10 位 十 进 制 数 。 每 一 位 数 
由 10 个 真空 管 环 来 表示 ， 在 任何 时 候 ， 仅 有 一 个 真空 管 处 于 ON RE, RK 10 个 数字 中 的 一 
个 。ENIAC 的 主要 缺点 是 必须 手动 编程 ， 一 切 都 要 通过 设置 开关 和 揪 拔 电缆 头 来 实现 。 

ENIAC 于 1946 年 建成 ， 因 此 未 能 在 第 二 次 世界 大 战 中 出 力 。ENIAC 的 第 一 项 任务 是 ， 完 成 
一 系列 复杂 的 运算 ， 以 帮助 判断 氢弹 的 可 行 性 。 将 ENIAC 用 于 有 别 于 最 初 建造 它 的 目的 ， 表 明 
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了 它 的 通用 性 。ENIAC 在 BRL 的 管理 下 继续 工作 ， 直 到 1995 年 被 拆除 。 

2. 5+ EPSHI 

正如 前 面 所 提 到 的 ， 为 ENIAC 输入 和 修改 程序 极其 繁琐 。 如 果 程 序 能 够 以 某 种 形式 与 数据 
一 同 存在 于 存储 器 中 ， 编 程 的 过 程 就 可 以 简化 。 这 样 ， 计 算 机 就 可 以 通过 在 存储 器 中 读 取 程序 来 
获取 指令 ， 而 且 通 过 设置 一 部 分 存储 器 的 值 就 可 以 编写 和 修改 程序 。 

这 个 思想 被 称 为 “存储 程序 概念 ” ， 它 归功 于 ENIAC 的 设计 者 们 ， 特 别 是 ENIAC 项 目 顾问 、 
数学 家 约翰 汉 “' TS. + 诺 伊 曼 在 1945 年 的 一 份 新 型 计算 机 EDVAC (Electronic Discrete 
Variable Computer， 电 子 离散 变量 自动 计算 机 ) 的 计划 中 首次 公布 了 这 一 思想 。 几 乎 在 同时 ， 阿 
“+ 图 灵 也 提出 了 同样 的 构想 。 

1946 Æ, 5 + 庄 伊 曼 和 他 的 同事 在 普林斯顿 高 级 研究 院 开始 设计 一 种 新 的 存储 程序 计算 机 ， 
这 种 新 型 机 器 称 为 IAS 计算 机 。 虽 然 直到 1952 年 仍 未 中 央 处 理 器 (CPU) 
完成 ， 但 它 却 成 为 了 后 来 通用 计算 机 的 原型 。 一 

图 2-1 给 出 了 IAS 计算 机 的 普通 结构 (与 图 1-4 的 
中 间 部 分 进行 比较 ) ， 它 包括 : 

。 主 存储 器 ， 用 于 存储 数据 和 指令 9 。 

。 能 够 处 理 二 进 制 数 的 算术 逻辑 运算 单元 (ALU), 

。 控制 器 ， 负 责 解释 内 存 中 指令 并 执行 之 。 

。 由 控制 器 操纵 的 输入 /输出 设备 (IO) 。 

Do 庄 伊 曼 早 期 的 计划 中 概括 了 这 种 结构 ， 在 此 
值得 引用 下 面 的 论述 〈 见 文献 [VONN45 ] ): 

2.2 第 一 : 因为 这 台 设 备 主要 是 一 台 计算 机 ， 所 以 Be MARRAN 
它 必 须 能 够 执行 最 频繁 的 基本 算术 运算 ， 即 加 、 减 、 乘 、 除 运算 。 因 此 ， 它 应 该 包含 特殊 的 器 件 
来 执行 这 些 操作 。 

必须 看 到 ， 虽然 这 些 原理 可 能 是 合理 的 , 但 是 需要 仔细 研究 实现 它 的 特殊 方式 。 无 论 如 何 ， 
这 一 设备 的 中 央 算 术 (central arithmetical) 部 分 必须 存在 ， 它 组 成 了 第 1 个 特定 的 部 分 一 一 CA。 

2.3 第 二 : 设备 中 控制 操作 顺序 的 逻辑 控制 部 分 ， 能够 由 中 央 控 制 器 最 有 效 的 实现 。 如 果 此 
设备 有 灵活 性 ， 也 就 是 说 ， 几 乎 适用 于 所 有 应 用 ， 那 么 必须 区 分 对 待 给 定 的 指令 和 所 给 出 的 特殊 
问题 ， 以 保证 这 些 指令 〈 无 论 它 是 什么 ) 都 能 被 通用 控制 器 执行 。 前 者 必须 以 某 种 形式 存储 ， 

后 者 通过 定义 设备 的 操作 部 分 来 表示 。 中 央 控 制 (central control) 仅 指 后 者 的 功能 。 中 央 控 制 和 

实现 它 的 器 件 组 成 了 第 2 个 特定 部 分 CC。 

2.4 第 三 : 任何 执行 长 而 复杂 的 操作 序列 (特别 是 计算 序列 ) 的 设备 都 必须 有 一 个 相当 大 的 








(b) 管理 一 个 复杂 问题 的 指令 集 可 能 包含 很 多 内 容 ， 特 别 是 根据 情况 而 编码 (这 存在 于 大 
多 数 情况 中 ) ， 这 些 素材 必须 被 记忆 。 

无 论 如 何 ， 所 有 的 存储 器 (memory) 组 成 了 设备 的 第 3 个 特定 的 部 分 一 一 M。 

2.6 这 3 个 特定 的 部 分 ，CA、CC (一 起 被 称 为 C) 和 M， 对 应 于 人 类 神经 系统 中 的 联想 神经 
元 。 后 面 还 需要 讨论 感 党 和 运动 神经 元 的 对 应 物 ， 即 设备 的 输入 和 输出 器 件 。 

设备 必须 具有 接触 某 些 特定 媒体 并 进行 输入 和 输出 (感觉 和 运动 ) 的 能 力 。 这 种 媒体 被 称 
为 设备 的 外 部 记录 媒体 : R。 

2.7 第 四 : 设备 必须 有 从 R 到 特定 的 C 和 M 传送 信息 的 器 件 。 这 类 器 件 形成 了 它 的 输入 
(input) ， 因 此 第 4 部 分 是 I。 我 们 将 看 见 ， 最 好 使 得 所 有 的 传送 都 是 从 R (通过 了 I) 到 M， 而 绝 
非 直接 来 自 C。 





CO 在 本 书 中 ， 除 非特 别 声 明 ， 术 语 “ 指 令 ” 是 指 机 器 指令 ， 与 高 级 语言 (例如 Ada 或 C++ ) 中 的 指令 不 同 ， 它 由 
处 理 器 直接 解释 和 执行 ， 而 高 级 语言 中 的 指令 在 被 执行 之 前 ， 必 须 首先 被 编译 成 一 系列 机 器 指令 。 
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2.8 第 五 : 设备 必须 有 从 它 的 特定 部 分 C 和 M 传送 信息 到 R 的 器 件 。 这 些 器 件 形成 它 的 输出 
(output) ， 因 此 第 5 部 分 是 0。 我 们 还 将 看 见 ， 最 好 使 得 所 有 的 传送 都 从 M (通过 0) BR, 而 
绝 非 直接 来 自 C。 
除了 少数 特例 外 ， 当 今 所 有 计算 机 都 具有 与 上 述 相 同 的 结构 和 功能 ， 因 此 它们 都 被 称 为 

“Th + 诺 伊 曼 机 ”。 所 以 值得 在 这 里 简单 描述 一 下 IAS 计算 机 的 操作 (参见 [BURK46 ] ) 。 依 据 文 
献 [HAYE98 ] 73+ 诺 伊 曼 术 语 和 概念 变 得 更 贴近 当代 的 用 法 ,伴随 这 些 讨 论 的 示例 也 基于 文 
献 [HAYE98] 。 











IAS 的 存储 器 包含 1000 个 存储 单 ol 39 
元 , 它们 被 称 为 字 (word), Bee LE eee ae | 
40 位 bit) 9。 数据 和 指令 都 存储 在 此 。 I yy 
数据 被 表示 为 二 进 制 形式 ， 而 且 指令 是 
二 进 制 编码 ， 图 2-2 给 出 了 这 种 格式 。 左 指令 ERS 
每 个 数 被 表示 为 1 个 符号 位 和 39 个 数 0 8 20 28 39 
值 位 。 一 个 字 也 可 以 包含 两 条 20 位 的 
指令 ,每 条 指令 包含 一 个 8 位 的 操作 操作 码 地 址 操作 但 地 址 
码 ， 用 来 指定 所 执行 的 操作 类 型 ， 和 一 b) 指令 字 
个 12 位 的 地 址 ， 用 于 指定 存储 器 中 某 图 2-2 IAS 存储 格式 


个 字 的 地 址 (0 ~999) 。 

控制 器 通过 一 次 从 存储 器 中 取 一 条 指令 并 执行 它 的 方式 来 操作 IAS。 为 了 解释 这 一 过 程 ， 需 

要 一 张 更 详细 的 结构 图 ， 如 图 2-3 所 示 。 此 图 表明 无 论 是 控制 器 还 是 ALU 都 包含 了 存储 区 域 ， 它 
们 被 称 为 寄存 器 (register) ， 具 体 定义 如 下 : 

。 存储 器 缓冲 寄存 器 (MBR) : 包含 将 要 写 。; 。 算术 逻辑 单元 (ALU) 

到 存储 器 或 送 到 IO 单元 或 者 接受 来 自 存 | 
储 器 或 VO 单元 的 一 个 字 。 

。 存储 器 地 址 寄存 器 (MAR): 指定 将 要 从 
MBR 写 进 存储 器 或 从 存储 器 读 人 MBR 的 
存储 器 字 单 元 的 地 址 。 

。 指令 寄存 器 CIR): 包含 正在 执行 的 8 位 creas 
操作 码 指令 。 A 

。 指令 缓冲 寄存 器 (IBR) : 用 来 暂 存 来 自 存 
储 器 一 个 字 的 右边 指令 。 

。 程序 计数 器 (PC): 存放 将 要 从 存储 器 中 
获取 的 下 一 对 指令 的 地 址 。 

。 累加 器 (AC) 和 乘 商 寄 存 器 ( MQ): 用 
来 暂 存 ALU 运算 的 操作 数 和 结果 。 例 如 ， 
两 个 40 位 的 数 相 乘 ， 结 果 是 一 个 80 位 的 
数 ， 则 高 40 位 放 在 AC 中 ， 低 40 位 放 在 ; 已 H 
MQ 中 。 PR ates 

TAS 通过 反复 执行 指令 周期 (instruction cy- 

cle) 来 运行 ， 如 图 2-4 所 示 。 每 个 指令 周期 由 两 








制 器 | 


图 2-3 IAS 计算 机 结构 扩展 





日 术语 “ 字 ” 没 有 统一 定义 。 通 常 ， 一 个 字 被 定义 为 一 组 有 序 字 节 或 位 ， 它 是 某 一 给 定 计 算 机 中 可 以 存储 、 传 送 或 
处 理 的 信息 基本 单位 。 特 别 是 ， 如 果 一 个 处 理 器 具有 固定 长 指令 集 ， 那 么 其 指令 长 等 于 其 字 长 。 
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个 子 周 期 组 成 。 在 取 指 周期 (fetch cycle) H, 下 一 条 指令 的 操作 码 装 人 及， 地 址 部 分 装 入 
MAR。 指 令 可 以 从 IBR 中 获得 ， 也 可 以 从 存储 器 中 获得 ， 即 先 从 存储 器 装 在 一 个 字 到 MBR， 然 
后 将 该 字 解 开放 入 IBR, IR 和 MAR, 


译 码 IR 中 的 指令 
If AC>0 then 


go to M(X,0:19) 
Yes 





(i:j) = 由 i 到 j 的 位 
图 2-4 TAS 操作 的 部 分 流程 图 


为 什么 不 直接 获取 ? 因为 这 些 操作 都 是 由 电子 电路 控制 并 且 导 致 数据 路 径 的 使 用 。 为 了 简化 
电路 ， 只 用 一 个 寄存 器 来 指定 存储 器 中 读 写 的 地 址 ， 而 且 也 只 用 一 个 寄存 器 来 存放 数据 源 或 目标 。 
一 旦 操作 码 在 IR 中 ， 则 进入 执行 周期 (execute cycle) 。 控 制 电路 翻译 操作 码 ， 并 且 通 过 发 
- 送 相应 的 控制 信号 来 执行 指令 ， 这 些 信号 控制 数据 的 传送 和 ALU 操作 的 执行 。 
IAS 计算 机 共有 21 条 指令 ， 在 表 2-1 中 列 出 ， 可 分 为 以 下 几 类 : 
o 数据 传送 : 在 存储 器 和 ALU 的 寄存 器 之 间或 在 两 个 ALU 寄存 器 之 间 传 送 数据 。 
e 无 条 件 转移 : 通常 ， 控 制 器 按 顺 序 执行 存储 器 中 的 指令 ， 但 这 一 顺序 能 通过 跳 转 指令 加 
以 改变 ， 以 便 执行 重复 的 操作 。 
© 条 件 转移 : 可 以 依据 条 件 来 决定 是 否 跳 转 ， 从 而 选择 从 何 处 跳 转 。 
。 算术 运算 : 由 ALU 完成 的 操作 。 
o 地 址 修改 : 允许 在 ALU 中 计算 地 址 ， 并 将 它 插入 存储 器 的 指令 中 ， 为 程序 寻 址 带 来 很 大 
的 灵活 性 。 
表 2-1 以 符号 化 的 、 易 读 的 形式 列 出 了 指令 。 事 实 上 ， 每 条 指令 必须 遵循 图 2-2b 的 格式 。 操 
作 码 部 分 (前 8 位) 指定 了 将 要 执行 的 21 条 指令 。 地 址 部 分 (剩余 的 12 位 ) 指定 了 执行 指令 
所 涉及 的 1000 个 存储 单元 的 某 一 个 。 
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表 2-1 1IAS 指令 集 
指令 类 型 操作 码 代表 符号 说 明 
00001010 | LOAD MQ 传送 寄存 器 MQ 的 内 容 到 累加 器 AC 
00001001 | LOAD MQ,M(X) 传送 内 存单 元 X 的 内 容 到 MQ 
00100001 | STOR M(X) 传送 累加 器 的 内 容 到 内 存单 元 X 
数据 传输 00000001 | LOAD M(X) 传送 M(X) 到 累加 器 
00000010 | LOAD -M(X) 传送 -M(X) 到 累加 器 
00000011 | LOAD | M(X) | 传送 M(X) 的 绝对 值 到 累加 器 
00000100 | LOAD - | M(X) | 传送 - | M(X) | 到 累加 器 
00001101 | JUMP M(X,0:19) 从 M(X) 的 左 半 字 取 下 一 条 指令 
无 条 件 转移 
00001110 | JUMP M(X,20:39) 从 M(X) 的 右 半 字 取 下 一 条 指令 
00001111 | JUMP +M(X,0:19) 如 果 累 加 器 的 值 非 负 , 则 从 M(X) 的 左 半 字 取 下 一 条 指令 
didi 00010000 | JUMP +M(X,20:39) 如 果 累 加 器 的 值 非 负 , 则 从 M(CX) 的 右 半 字 取 下 一 条 指令 
00000101 | ADD M(X) M(X) AC, 结果 放 人 AC 
ADD | M(X) | | M(X) | 加 AC, 结果 放 入 AC 
00000110 | SUB M(X) 从 AC HI M(X), 结果 放 入 AC 
_ 00001000 | SUB | M(X) | 从 AC 中 减 | M(X) | ,结果 放 入 AC 
MUL M(X) M(X) MQ, 结果 的 高 位 部 分 在 人 AC, 低位 部 分 存 人 MQ 
DIV M(X) AC BREA M(X), RIA MQ, 余数 放 入 AC 
累加 器 的 数 乘 以 2, 即 累加 器 左 移 一 位 
00010101 累加 器 的 数 除 以 2, 即 累 加 器 右 移 一 位 
00010010 | STOR M(X,8:19) 用 AC 最 右边 的 12 位 来 替代 M(X) 的 左 地 址 区 段 
nee 00010011 | STOR M(X,28:39) 用 AC 最 右边 的 12 位 来 替代 M(X) 的 右 地 址 区 段 





图 2-4 给 出 控制 器 执行 指令 的 几 个 例子 。 注 意 ， 每 个 操作 都 要 求 用 几 步 来 完成 ， 其 中 有 些 是 
相当 精巧 的 。 乘 法 运算 需要 39 个 子 操作 ， 除 符号 位 外 ， 每 个 位 对 应 一 个 子 操作 。 

3. 商用 计算 机 

20 世纪 50 年 代 ， 有 两 家 公司 (Sperry F IBM) 见证 了 计算 机 工业 的 诞生 ， 当 时 这 两 家 公司 
控制 着 计算 机 市 场 。 

1947 年 ， 埃 克 特 和 莫 克 利 创办 了 埃 克 特 - 莫 克 利 计算 机 公司 ， 制 造 商 用 计算 机 。 他 们 的 第 一 . 
个 成 功 机 型 是 UNIVAC I (Universal Automatic Computer， 通 用 自动 化 计算 机 ) ， 它 由 美国 统计 局 
委托 制造 ， 用 于 1950 年 的 计算 。 埃 克 特 - 莫 克 利 计算 机 公司 后 来 成 为 Sperry-Rand 公司 UNIVAC 
部 门 的 一 部 分 ， 继 续 生产 了 一 系列 后 续 的 机 型 。 

UNIVAC I 是 第 一 台 成 功 的 商用 计算 机 。 顾 名 思 义 ， 它 适合 于 科学 计算 和 商业 两 方面 的 应 
用 。 作 为 它 能 够 完成 的 任务 示范 ， 介 绍 该 系统 的 第 一 篇 论文 列 出 了 和 矩阵 代数 运算 、 统 计 问 题 、 人 
寿 保 险 公司 的 养老 金 清单 和 数理 逻辑 问题 。 

UNIVAC II tk UNIVAC I 有 更 大 的 内 存 容 量 和 更 高 的 性 能 ， 它 诞生 于 20 世纪 50 年 代 后 期 ， 并 
且 印 证 了 计算 机 工业 一 直 保 持 的 几 个 特征 。 首 先 ， 先 进 的 技术 使 公司 能 不 断 地 推出 更 大 的 、 功 能 
更 强 的 计算 机 ; 其 次 ， 每 个 公司 尽量 使 它们 的 新 机 型 向 上 兼容 2? 旧 的 机 型 ， 这 意味 着 在 旧 机 型 上 





O 也 称 为 向 下 兼容 。 从 较 早 系统 的 观点 来 看 ， 同 样 的 概念 被 称 为 向 上 兼容 或 向 前 兼容 。 
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编写 的 程序 可 以 在 新 机 型 上 运行 。 采 用 这 个 战略 是 为 了 留 住 客户 ， 换 句 话 说 ， 当 一 位 顾客 决定 购 
买 一 台新 机 器 时 ， 为 了 避免 程序 投资 的 损失 ， 他 很 有 可 能 购买 同一 家 公司 的 产品 。 

UNIVAC 部 门 也 开发 1100 系列 计算 机 ， 这 成 为 它 的 主要 业务 。 这 一 系列 计算 机 表明 了 那 时 
存在 的 一 个 区 别 。 第 一 个 型 号 UNIVAC 1103 以 及 多 年 以 后 的 后 续 产 品 ， 主 要 致力 于 科学 应 用 ， 
包括 长 且 复 杂 的 计算 ; 而 其 他 公司 则 致力 于 商业 应 用 ,包含 对 大 量 文本 数据 的 处 理 。 现 在 ， 这 一 
区 别 已 经 消失 ,但 它 曾 经 存在 了 许多 年 。 

IBM 那 时 还 只 是 穿孔 卡 处 理 设备 的 主要 制造 商 。IBM 于 1953 年 生产 了 自己 的 首 台 程序 存储 
计算 机 IBM701 ， 它 主要 面向 科学 应 用 [ BASH81 ] v 1955 年 IBM 生产 了 另 一 种 产品 IBM 702, 其 
硬件 上 许多 特点 使 它 适 用 于 商业 应 用 ， 它 们 是 700/7000 这 一 大 系列 的 开端 产品 ， 这 一 系列 使 
IBM 成 为 占据 主导 地 位 的 计算 机 制造 商 。 


2.1.2 第 二 代 : 晶体 管 





电子 计算 机 的 第 一 个 主要 改变 是 使 用 晶体 管 代 蔡 电 子 管 。 唱 体 管 比 电子 管 的 体积 更 小 、 更 


便宜 、 发 热 更 少 ， 


而 且 能 以 与 电子 管 相 同 的 方式 建造 计算 机 。 电 子 管 由 导线 、 金 属 片 、 玻 璃 外 壳 


和 真空 管 构成 ; 而 晶体 管 是 固态 器 件 ， 由 硅 片 制 成 。 
1947 年 贝尔 实验 室 发 明了 晶体 管 ， 从 而 在 20 世纪 50 年 代 引 发 了 一 场 电子 革命 。 直 到 20 tit 
纪 50 年 代 末 ， 完 全 晶体 管 计算 机 才能 实际 应 用 于 商业 。IBM 这 次 仍 不 是 第 一 个 提供 这 种 技术 的 
。 公 司 。NCR 和 RCA 是 生产 小 型 晶体 管 机 器 的 先驱 者 ， 两 者 相 比 ，RCA 更 成 功 一 些 。IBM 不 久之 
后 才 开 发 了 7000 系列 。 
晶体 管 的 使 用 是 第 二 代 计 算 机 的 标志 。 基 于 所 采用 的 基本 硬件 技术 来 划分 各 个 计算 机 时 代 ， 
已 成 为 人 们 的 一 个 共识 (如 表 2-2 所 示 ) 。 新 一 代 计 算 机 以 比 旧 一 代 机 器 具有 更 快 的 处 理 速 度 、 























更 大 的 存储 容量 和 更 小 的 尺寸 。 
表 2-2 计算 机 的 发 展 阶段 
发 展 阶段 大 致 时 间 技术 典型 速度 (每 秒 钟 的 操作 次 数 ) 
1 1946 ~1957 年 真空 管 (电子 管 ) 4 万 次 
2 1958 ~ 1964 年 晶体 管 20 万 次 
3 100 万 次 








1965 ~ 1971 年 小 规模 和 中 规模 集成 电路 
1972 ~ 1977 年 大 规模 集成 电路 




















1000 万 次 
5 1978 ~ 1991 年 超大 规模 集成 电路 1 亿 次 
6 1991 年 以 后 巨大 规模 集成 电路 10 亿 次 


这 个 时 期 ， 还 发 生 了 其 他 变化 。 第 二 代 计 算 机 采用 了 更 复杂 的 算术 逻辑 单元 和 控制 器 ， 使 用 


了 高 级 编程 语言 ， 


并 为 计算 机 提供 了 系统 软件 。 


值得 注意 的 第 二 个 主要 改变 是 ， 这 个 时 期 出 现 了 数据 设备 公司 (DEC), DEC 建立 于 1957 
年 ， 同 年 ，DEC 开发 了 它们 的 第 一 台 计 算 机 一 一 PDP-1。 这 种 系列 的 计算 机 以 及 由 其 开发 的 小 型 
计算 机 ， 使 这 家 公司 在 第 三 代 计 算 机 中 变 得 异常 著名 。 

IBM 7094 

从 1952 年 出 现 700 系列 到 1964 年 7000 系列 的 最 后 一 个 产品 ，IBM 的 产品 经 历 了 计算 机 产品 
的 典型 演变 历程 。 每 个 产品 的 后 续 产 品 都 有 更 高 的 性 能 、 更 大 的 容量 和 /或 者 更 低 的 价格 。 

表 2-3 说 明了 这 一 趋势 。 主 存 容量 是 2" 个 36 位 字 的 倍数 ， 从 2K (1K =2") 字 增 加 到 32K 
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ZO, 访问 内 存 中 一 个 字 的 时 间 ， 称 为 内 存 周 期 ， 从 30ks 下 降 到 1.4ns。 操 作 码 的 数量 也 从 可 怜 
的 24 种 增加 到 185 种 。 

最 后 一 栏 表示 中 央 控 制 单元 (CPU) 的 相对 执行 速度 。 速 度 的 提高 是 因为 电子 元 件 的 改进 
(例如 ， 晶 体 管 比 电子 管 速度 更 快 ) 和 更 复杂 的 电路 。 例 如 ，IBM 7049 包含 指令 缓存 寄存 器 
(IBR) ， 它 用 来 暂 存 下 一 条 指令 。 控 制 器 在 每 个 指令 的 取 指 周期 从 存储 器 取 相 邻 的 两 个 字 ， 除 非 
遇 到 不 常 发 生 的 分 支 指令 ， 这 意味 着 控制 器 只 需 在 一 半 的 指令 周期 才 需 要 访问 内 存 取 指令 。 这 
一 预 取 指令 方式 显著 减少 了 平均 指令 周期 时 间 。 

表 2-3 的 其 余 几 列 将 会 随 着 文章 的 深入 而 进一步 清晰 。 

图 2-5 表示 了 IBM 7049 的 大 型 配置 环境 ( 带 有 许多 外 设 )， 这 是 第 二 代 计 算 机 的 代表 (I 
[BELL71] ) 。IBM 7049 与 IAS 计算 机 的 区 别 值得 特别 注意 ， 最 重要 的 是 它 使 用 了 数据 通道 (data 
channel) 。 数 据 通 道 是 独立 的 VO 模块 ， 具 有 自己 的 处 理 器 和 指令 集 。 在 带 有 这 些 设 备 的 计算 机 系 
统 中 ，CPU 不 执行 具体 的 VO 指令 。 这 些 指令 被 存放 在 主 存 中 ， 由 数据 通道 本 身 的 专用 处 理 器 执 
行 。CPU 通过 给 数据 通道 发 送 一 个 控制 信号 来 初始 化 VO 传送 ， 指 示 它 执行 内 存 中 的 一 串 指令 。 数 
据 通 道 独立 地 执行 它 的 任务 ， 并 在 操作 完成 时 通知 CPU。 这 种 方式 减轻 了 CPU 很 多 的 处 理 负 担 。 

表 2-3 IBM 700/7000 系列 成 员 的 例子 


CPU “| 存储 器 | 周期 时 — ; 硬件 vona miel 速度 ( 相 
技术 | 技术 | 间 (ps) | AB 浮 点 | (通道 ) | aa | 对 于 701) 















































7094 II | 1964 | 晶体 管 | 磁 世 1.4 32 185 


另 一 个 新 特点 是 多 路 ( 复 用 ) 器 (multiple- 
xer) ， 它 是 数据 通道 、CPU 、 内 存 的 中 心 连接 点 。 
多 路 器 调度 CPU 和 数据 通道 对 内 存 的 访问 ， 人 多 
许 这 些 设备 独立 运行 。 


2.1.3 第 三 代 : 集成 电路 

单个 独立 封装 的 晶体 管 称 为 分 立 元 件 〈dis- 
crete component), ， 从 20 世纪 50 年 代 到 60 年 代 
早期 ， 电 子 设备 包含 大 量 的 分 立 元 件 一 一 晶体 
管 、 电 阻 、 电 容 等 。 分 立 元 件 独立 制造 ， 封 装 在 
自己 的 容器 中 ， 然 后 一 起 焊接 到 或 连接 到 纤维 板 
(类 似 电 路 板 ) 上 ， 最 后 再 安装 到 计算 机 、 示 波 
器 或 其 他 电子 设备 中 。 在 电子 设备 需要 晶体 管 的 
地 方 ， 一 个 包含 针尖 大 小 硅 片 的 小 晶体 管 就 会 被 
焊接 到 电路 板 上 。 从 晶体 管 到 电路 板 的 整个 制造 
过 程 都 是 昂贵 且 麻 烦 的 。 Ane a 





日 数字 前 级 ， 例 如 千 (K) MFI (G) 的 使 用 讨论 包含 在 计算 机 科学 学 生 资源 站 点 的 支持 材料 中 ， 网 址 为 William- 
Stallings. com/ StudentSupport. html , 
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这 种 情况 给 计算 机 工业 带 来 了 问题 。 早 期 的 第 二 代 计算 机 包含 约 10 000 个 晶体 管 ， 这 一 数 
字 后 来 增长 到 数 十 万 ,使 得 生产 更 新 、 更 强大 的 计算 机 变 得 越 来 越 困 难 。 

1958 年 出 现 了 电子 学 革命 性 的 成 就 ， 开 创 了 微 电 子 时 代 : 集成 电路 的 发 明 。 正 是 集成 电路 
定义 了 第 三 代 计算 机 。 这 一 节 将 简单 介绍 集成 电路 技术 ， 然 后 ， 考 察 可 能 是 第 三 代 计算 机 中 最 重 
要 的 两 个 成 员 : IBM 的 System/360 和 DEC 的 PDP-8 ， 两 者 都 在 这 个 时 代 的 初期 出 现 。 

1. 微 电 子 技术 

顾名思义 ， 微 电子 技术 是 “微小 的 电子 技术 " 。 从 数字 电子 技术 和 计算 机 工业 一 开始 ， 就 存 
在 持续 不 断 地 减 小 数字 电子 电路 尺寸 的 趋势 。 在 考察 这 一 趋势 的 内 涵 和 好 处 之 前 ， 我 们 需要 先 
介绍 数字 电子 技术 的 一 些 性 质 ， 而 更 详细 的 讨论 在 第 20 章 。 

如 我 们 所 知 ， 电 子 计算 机 的 基本 器 件 必须 。 _ 
执行 存储 、 传 送 、 处 理 、 控 制 等 功能 。 只 有 两 MA i 答 出 输入 给 出 
种 基本 类 型 的 元 件 是 必需 的 : 逻辑 门 和 存储 器 


位 元 (如 图 2-6 所 示 ) 。 逻辑 门 是 实现 简单 布尔 Ra 和 

或 逻辑 功能 的 元 件 ， 例 如 ,“ 如 果 A 和 B 是 真 ， a) 门 b) 存储 器 位 元 
那么 C 是 真 〈 与 门 )”。 由 于 它们 控制 数据 流 的 See 

方式 与 闸门 相似 ， 因 此 这 种 设备 被 称 为 逻辑 门 。 aS T 


存储 器 位 元 是 一 个 能 够 存储 一 位 数据 的 元 件 ， 也 就 是 说 ， 该 元 件 在 任何 时 刻 都 可 以 处 于 两 个 稳 
定 状态 之 一 。 将 大 量 的 基本 元 件 连接 起 来 ， 就 能 够 建造 一 台 计 算 机 。 我 们 可 以 将 此 与 如 下 4 个 基 
本 功能 联系 起 来 : 

。 数据 存储 : 由 存储 器 位 元 提供 。 

。 数据 处 理 : 由 逻辑 门 电路 提供 。 

。 数据 移动 : 部 件 间 的 通路 用 于 将 数据 从 内 存 传送 到 内 存 ， 或 从 内 存 通过 门 电 路 再 传送 到 内 存 。 

。 控制 : 部 件 间 的 通路 传送 控制 信号 。 例 如 ， 一 个 门 有 一 或 两 个 数据 输入 和 激活 启动 门 的 

控制 信号 输入 。 当 控制 信号 是 ON 时 ,逻辑 门 对 数据 输入 执行 其 功能 并 产生 数据 输出 。 
类 似 地 ， 存 储 器 位 元 在 写 控制 信号 为 ON 时 ， 存 人 其 输入 线 的 位 值 ; 而 在 读 控制 信号 为 
ON 时 ， 将 位 元 的 位 值 放 置 在 其 输出 线 上 。 

因此 ， 计 算 机 包含 门 、 存 储 器 位 元 和 它们 之 间 的 互 连 。 而 这 些 门 和 存储 器 位 元 是 由 简单 的 数 
字 电 子 元 件 构 造 的 。 

集成 电路 利用 了 一 个 事实 ， 即 晶体 管 、 电 阻 、 导 线 都 可 以 用 硅 之 类 的 半导体 制 成 。 将 整个 电 
路 安装 在 很 小 的 硅 片 上 而 不 是 用 分 立 元 件 搭 成 的 等 价 电 路 ， 只 不 过 是 “固态 技术 ”的 一 种 扩展 ， 
而 且 在 一 块 硅 唱 片上 能 同时 制造 很 多 个 晶体 管 。 同 样 重要 的 是 ， 这 些 晶 体 管 能 够 通过 金属 化 过 
程 相互 连接 ， 以 形成 电路 。 

图 2-7 描述 了 集成 电路 的 关键 性 概念 。 一 块 薄 硅 晶片 (wafer) 划分 由 多 个 小 区 域 排列 而 成 的 
阵列 ， 每 个 区 域 有 几 和 平方 毫 米 ， 它 们 上 面 都 有 相同 的 电路 。 这 块 晶 片 被 划分 成 许多 块 世 
(chip) ， 每 块 芯 片 都 包含 许多 逻辑 门 和 /或 存储 器 位 元 以 及 许多 输入 、 输 出 连接 点 。 然 后 封装 这 
块 芯 片 ， 使 之 得 以 保护 ， 并 加 上 引 脚 ， 用 以 连接 芯片 外 部 的 其 他 设备 。 许 多 这 样 的 集成 电路 块 可 
以 连接 在 印刷 电路 板 上 ， 产 生 更 大 、 更 复杂 的 电路 。 

起 初 ， 只 有 几 个 门 和 存储 器 位 元 可 以 可 靠 地 制造 并 封装 在 一 起 。 这 些 早 期 的 集成 电路 被 称 
为 小 规模 集成 电路 〈SST) 。 随 着 时 间 的 推移 ， 将 越 来 越 多 的 元 件 放 在 同一 块 芯片 上 成 为 可 能 。 图 
2-8 显示 了 密度 的 增长 ， 它 是 所 有 曾经 记录 的 最 显著 技术 趋势 之 一 ” 。 此 图 反映 了 著名 的 摩尔 定 





O 注意 纵 轴 使 用 了 对 数 Clog) 刻度 。 关 于 对 数 刻度 的 基本 回顾 包含 在 计算 机 科学 学 生 资 源 站 点 的 数学 复习 资料 中 ， 
网 址 为 WilliamStallings.com/StudentSupport.html。 
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律 ， 该 定律 是 Intel 合伙 创办 人 之 一 高 登 ， 摩尔 (Gordon Moore) F 1965 年 提出 的 (参见 文献 
LMOOR65 ] ) 。 摩 尔 观 察 到 单 芯片 上 所 能 包含 的 晶体 管 数 量 每 年 翻 一 番 ， 并 正确 断言 这 种 态势 在 
不 远 的 将 来 还 会 继续 下 去 。 令 许多 人 (包括 摩尔 在 内 ) 惊奇 的 是 ， 这 种 态势 年 复 一 年 地 持续 了 
下 来 。 直 到 1970 年 ， 这 种 态势 减 慢 成 每 18 SAB, 但 从 此 之 后 ， 这 个 新 增长 速率 又 持续 
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封装 后 的 芯片 年 份 
图 2-7 唱片、 芯片 和 逻辑 门 图 2-8 CPU 晶体 管 数量 的 增长 
之 间 的 相互 关系 (参见 [BOHR03]) 
摩尔 定律 的 影响 是 深远 的 : 


(1) 在 芯片 集成 度 快速 增长 的 期 间 ， 单 个 芯片 的 成 本 几乎 没有 变化 。 这 意味 着 计算 机 逻辑 
电路 和 存储 器 电路 的 成 本 显著 下 降 。 

(2) 因为 在 集成 度 更 高 的 芯片 中 逻辑 和 存储 器 单元 的 位 置 更 靠近 ， 电 子 线路 长 度 更 短 ， 所 
以 提高 了 工作 速度 。 

(3) 计算 机 变 得 更 小 ， 更 容易 放置 在 各 种 环境 中 。 

(4) 减 小 了 电能 消耗 及 对 冷却 的 要 求 。 

(5) 集成 电路 内 部 的 连接 比 焊 接 更 可 靠 。 由 于 芯片 上 电路 的 增加 ， 芯 片 间 的 连接 变 得 更 少 。 

2. IMB System/360 

到 1964 年 ，IBM 的 7000 系列 机 已 经 牢 牢 占据 了 市 场 。 那 年 ，IBM 发 布 了 System/360， 这 是 
计算 机 产品 的 一 个 新 家 族 。 虽 然 发 布 消息 本 身 并 不 惊人 ， 但 它 包 括 了 一 些 令 现 有 IBM 客户 感到 
不 太 舒 服 的 信息 : 360 产品 线 与 原来 的 IBM 机 器 不 兼容 。 因 此 ， 现 有 的 客户 转移 到 360 将 会 遇 到 
困难 。 这 是 IBM 所 迈 出 的 大 胆 一 步 ，IBM 认为 有 必要 突破 7000 体系 结构 的 限制 ， 制 造 能 随 着 新 
的 集成 电路 技术 一 起 发 展 的 系统 [PADE81，GIFF87] 。 这 一 战略 在 经 济 上 和 技术 上 都 会 得 到 回 
报 。360 在 那 时 获得 了 成 功 ， 巩 固 了 IBM 作为 计算 机 销售 的 绝对 优势 地 位 ，IBM 占有 70% 以 上 的 
市 场 份额 。 经 过 相应 的 修改 和 扩展 ，360 体系 结构 至 今 仍 是 BM 大 型 机 2 的 体系 结构 ， 本 书 将 一 
直 采 用 此 结构 作为 范例 。 

System/360 系列 是 工业 上 第 一 个 计算 机 系列 ， 该 系列 机 覆盖 的 性 能 和 价格 范围 很 广 。 表 2-4 
列 出 了 1965 年 各 种 型 号 机 器 的 一 些 关键 特征 (系列 机 中 的 不 同 成 员 有 不 同型 号 的 编号 )。 各 种 
型 号 之 间 的 兼容 性 体现 在 ,为 系列 机 中 某 个 型 号 写 的 程序 可 以 在 系列 机 中 任 一 个 型 号 上 运行 ， 
只 是 运行 时 间 不 同 。 





日 术语 “大 型 机 ”( mainframe) 是 指 除 超级 计算 机 之 外 的 更 多 、 更 强 的 计算 机 ， 大 型 机 的 典型 特征 是 ， 支 持 大 型 数 
据 库 、 具 有 精细 的 VO 设备 和 用 于 中 央 数 据 处 理 设备 中 。 
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表 2-4 System/360 系列 机 的 关键 特征 
































| Modal30 | Model40 | Model 50] Model60 | Model70 
最 大 存储 器 容量 ( 字 节 ) 64K 256K 256K 512K 512K 
存储 器 的 数据 传输 率 (MB/s) 0.5 0.8 2.0 8.0 16.0 
处 理 器 的 时 钟 周期 ( ps) 1.0 0.625 0.5 0.25 0.2 
相对 速度 | 1 3.5 10 21 50 
数据 通道 的 最 大 数目 3 3 4 6 | ¢ 
单 通道 最 大 数据 传输 率 (KB/s) 250 400 800 1250 1250 











兼容 计算 机 的 系列 化 概念 不 但 新 颖 而 且 取 得 了 成 功 。 用 户 起 初 可 以 购买 较 便宜 的 Model 30 
来 满足 不 高 的 要 求 和 预算 。 之 后 ， 如 果 用 户 的 需要 提高 了 ， 可 以 将 它 升 级 到 内 存 更 多 、 速 度 更 快 
的 机 器 上 ， 而 不 必 对 已 经 开发 的 软件 再 付出 投资 。IBM 系列 机 具有 下 列 特征 : 

。 相同 的 或 相似 的 指令 集 : 多 数 情 况 下 ， 系 列 机 中 的 所 有 成 员 都 具有 完全 相同 的 机 器 指令 
集 。 这 样 ， 能 够 在 一 台 机 器 上 执行 的 程序 同样 也 能 在 另 一 台 机 器 上 执行 。 某 些 情 况 下 ， 
系列 机 中 低 端 产品 的 指令 集 是 高 端 产 品 的 一 个 子 集 ， 这 意味 着 程序 可 以 向 上 移植 而 不 能 
向 下 移植 。 
相似 或 相同 的 操作 系统 : 系列 机 中 的 所 有 成 员 都 有 相同 的 基本 操作 系统 ， 在 某 些 情况 下 ， 
高 端 成 员 会 增添 一 些 新 特征 。 

更 高 的 速度 : 系列 机 中 从 低 端 成 员 到 高 端 成 员 ， 其 指令 执行 速度 逐渐 增加 。 
更 多 的 MO 端口 数 : 系列 机 中 从 低 端 成 员 到 高 端 成 员 ， 其 VO 端口 数 越 来 越 多 。 
更 大 的 内 存 容 量 : 系列 机 中 从 低 端 成 员 到 高 端 成 员 ， 其 主 存 容量 越 来 越 越 大 。 

。 更 高 的 成 本 : 在 某 一 时 间 段 ， 系 列 机 中 从 低 端 成 员 到 高 端 成 员 ， 其 成 本 越 来 越 高 。 

系列 机 的 概念 如 何 实现 ?区别 在 于 3 个 因素 : 基本 速度 、 容 量 和 并 行程 度 [STEV64 ] 。 例 
如 ， 通 过 在 ALU 中 使 用 更 复杂 的 电路 ， 人 允许 子 操作 并 行 地 执行 ， 使 得 某 一 给 定 指令 的 执行 速度 
更 快 。 另 一 个 提高 速度 的 方式 是 增加 主 存 与 CPU 之 间 的 数据 宽度 ，Model 30 每 次 只 能 从 主 存 中 
读 取 一 个 字 节 (8 位 ) m Model 75 每 次 能 够 读 取 8 个 字 节 。 

System/360 不 仅 指 明了 IBM 未 来 发 展 的 方向 ， 而 且 对 整个 计算 机 行业 有 着 深远 的 影响 ， 其 
许多 特点 已 成 为 其 他 大 型 机 的 标准 。 

3. DEC 公司 的 PDP-8 

在 IBM 交付 其 第 一 个 System/360 产品 的 同一 年 ， 还 出 现 了 另 一 重要 的 产品 一 一 数字 装备 公 
司 (DEC) 的 PDP-8。 在 多 数 计算 机 仍 需要 空调 环境 的 时 候 ，PDP-8 (在 业界 称 为 小 型 机 ， 在 迷 
你 短 裙 出 现 之 后 ) 足够 小 ， 以 至 于 可 以 放 在 实验 室 的 工作 台 上 ， 或 被 安装 在 其 他 系统 中 。 这 种 小 
型 机 不 能 完成 大 型 机 的 所 有 工作 ， 但 价格 只 要 1.6 万 美元 ， 这 个 价格 足够 便宜 ， 使 得 每 个 实验 室 技 
术 人 员 都 能 配备 它 。 与 之 相 比 ， 几 个 月 前 出 现 的 System/360 系列 大 型 机 价格 高 达 几 十 万 美元 。 

PDP-8 的 低 价格 、 小 尺寸 使 得 其 他 制造 商 可 以 购买 PDP-8， 并 将 它 集 成 到 自己 的 计算 机 系统 
中 再 行 出 售 。 这 些 其 他 制造 商 被 称 为 原始 设备 制造 商 (OEM) ， 并 且 OEM 市 场 成 为 计算 机 市 场 
的 主要 部 分 。 

PDP-8 立即 引起 又 动 ， 并 使 DEC 大 发 其 财 。 这 种 机 器 和 PDP 系列 机 的 后 续 成 员 (如 表 2-5 
Bras) 达到 了 原来 只 有 IBM 计算 机 才能 达到 的 状态 ，DEC 在 此 后 的 12 年 中 销售 了 大 约 5 万 台 计 
算 机 。 正 如 DEC 在 自己 的 公司 史 中 写 到 的 ，PDP-8“ 创 造 了 小 型 机 的 概念 ， 并 领导 了 数 十 亿美 元 
的 产业 ” 。PDP-8 同样 使 DEC 成 为 最 大 的 小 型 机 制造 商 。 到 PDP-8“ 退 隐 ” 时 ，DEC 已 成 为 仅 次 
F IBM 的 第 二 大 计算 机 制造 商 。 
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32-5 PDP-8 的 演变 [VOEL88] 


























































上 理 器 +4K 个 12 位 
susp | 六 和 而 由 时间 | “ 字 的 有 人 中 的 从 格 ”| 人 天 数据 全 给 | 体积 (立方 arpa 
(单位 : 1000 美元 ) 
PDP-8 1965/4 16.2 1.26 8.0 自动 布线 -包装 生产 
PDP-8/5 1966/9 8.79 0.08 3.2 实现 串 行 指令 
PDP-8/1 1968/4 11.6 1.34 8.0 中 等 规模 集成 电路 
PDP-8/L 1968/11 7.0 1.26 2.0 更 小 的 机 箱 
PDP-8/E 1971/3 | 4.99 1.52 2.2 Omnibus 总 线 
PDP-8/M | 1972/6 1.52 | ae a mai UTEE 
PDP-8/A 1975/1 1.34 半导体 存储 器 ， 浮 点 处 理 器 

















与 IJBM 在 700/7000 和 360 系列 机 中 所 采用 的 中 央 交 换 机 结构 (如 图 2-5 Bras) 相 比 ，PDP-8 
的 后 续 型 号 采用 了 一 种 现在 几乎 已 被 所 有 微型 机 所 采用 的 结构 ， 即 总 线 结构 ， 如 图 2-9 所 示 。 
PDP-8 的 总 线 被 称 为 Omnibus， 包 含 96 个 独立 的 信号 通路 ， 用 来 传送 控制 信号 、 地 址 信号 和 数据 
信和 号。 由 于 所 有 的 系统 元 件 都 分 享 同 一 套 信号 通路 ， 因 此 它们 的 使 用 必须 由 CPU 来 控制 。 这 种 
结构 具有 高 度 的 灵活 性 ， 允 许 将 模块 插入 总 线 以 形成 各 种 配置 。 





图 2-9 PDP-8 的 总 线 结构 


2.1.4 后 续 几 代 


如 何 定义 计算 机 第 三 代 以 后 的 各 代 ， 意 见 不 太 一 致 。 表 2-2 建议 根据 集成 电路 技术 的 发 展 来 
划分 以 后 几 代 。 随 着 大 规模 集成 电路 (LSI) 的 采用 ， 一 块 集成 电路 芯片 上 可 以 放置 1000 个 元 
件 ， 超 大 规模 集成 ( VLSI) 达到 每 个 芯片 1 万 个 元 件 ， 而 现在 的 巨大 规模 (ULSI) 芯片 集成 了 
超过 100 万 个 元 件 。 

随 着 技术 的 高 速 发 展 ， 产 品 的 迅速 更 新 ， 软 件 和 通信 变 得 和 硬件 同等 重要 。 各 代 之 间 的 界限 
变 得 越 来 越 模 糊 且 没有 太 大 意义 。 可 以 说 新 发 展 的 商业 应 用 导致 了 20 世纪 70 年 代 的 主要 变化 ， 
这 些 变化 的 结果 仍 在 发 挥 作用 。 本 节 介 绍 其 中 两 个 最 重要 的 结果 。 

1. 半导体 存储 器 

集成 电路 技术 在 计算 机 中 的 最 初 应 用 是 采用 集成 电路 芯片 来 制作 处 理 器 〈 控 制 单元 和 算术 
轩 辑 单元 ) ， 但 人 们 同时 还 发 现 这 一 技术 也 可 以 构造 存储 器 。 

20 世纪 50 年 代 和 60 年 代 ， 所 有 计算 机 存储 器 都 是 由 微小 的 铁 磁体 环 做 成 ， 每 个 直径 约 1/16 
英寸 。 这 些小 环 被 吊 在 计算 机 内 用 细 线 做 成 的 网 格 上 。 一 个 环 (或 称 为 磁 蕊 ) 的 一 种 磁化 方向 
代表 1; 男 一 个 磁化 方向 则 代表 一 个 0。 磁 忌 存 储 器 速度 相当 快 ， 读 存储 器 速度 中 的 一 位 只 需 百 
万 分 之 一 秒 。 但 是 磁 芯 的 价格 昂贵 ， 体 积 大 ， 而 且 读 出 是 破坏 性 的 : 对 磁 世 的 一 次 读 取 会 氛 除 其 
存储 的 数据 。 因 此 必须 安装 读 出 后 立即 恢复 数据 的 电路 。 

1970 年 ，Fairchild ( 仙 童 公司 ) 生产 了 第 一 个 容量 较 大 的 半导体 存储 器 。 一 块 相当 于 单个 磁 
世 大 小 的 芯片 ， 包 含 了 256 位 的 内 存 。 这 种 内 存 芯 片 是 非 破坏 性 的 ， 而 且 读 写 速度 比 磁 世 快 很 
多 。 读 取 一 位 只 需要 70ns， 但 其 每 位 的 价格 比 磁 芯 的 要 贵 。 

1974 年 ， 一 件 关键 性 的 事情 发 生 了 : 半导体 存储 器 的 每 位 价格 低 于 磁 世 存储 器 的 每 位 价格 。 
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这 以 后 ， 存 储 器 的 价格 持续 快速 下 跌 ， 但 物理 存储 密度 不 断 增 加 。 这 导致 了 新 的 机 器 比 几 年 前 的 
机 器 更 小 、 更 快 、 内 存 容量 更 大 而 且 价格 更 便宜 。 存 储 器 技术 的 发 展 ， 与 将 要 讨论 的 处 理 器 技术 
的 发 展 一 起 ， 在 不 到 10 年 的 时 间 里 改变 了 计算 机 的 生命 力 。 虽 然 庞大 、 昂 贵 的 计算 机 仍然 存在 ， 
但 计算 机 已 经 以 办 公设 备 和 个 人 电脑 的 方式 走向 了 “最 终 用 户 ”。 

自从 1970 年 起 ， 半 导体 存储 器 经 历 了 13 代 : Bak 1K, 4K, 16K, 64K, 256K, 1M, 
4M, 16M, 64M, 256M, 1G, 4G 和 现在 的 16Gb (1K=2"，1M=22”，1G =2”)。 每 一 代 比 其 前 
一 代 存 储 密度 提高 4 倍 ， 而 每 位 价格 和 存 取 时 间 都 在 下 降 。 

2. 微 处 理 器 

同 存储 器 蕊 片 一 样 ， 处 理 器 芯片 的 单元 密度 也 在 不 断 地 增加 。 随 着 时 间 的 推移 ， 越 来 越 多 的 
单元 被 放置 在 每 一 块 芯片 上 ， 因 此 ， 构 建 一 个 计算 机 的 处 理 器 所 需要 的 芯片 越 来 越 少 。 

1971 年 出 现 了 突破 ，Intel 开发 了 Intel 4004, 4004 是 第 一 个 将 CPU 的 所 有 元 件 都 放 在 同一 块 
芯片 内 的 产品 于 是 ， 微 处 理 器 诞生 了 。 

4004 能 完成 两 个 4 位 数 相 加 ， 通 过 重复 相 加 来 完成 乘法 。 以 今天 的 标准 ，4004 虽然 相对 简 
单 ， 但 是 它 却 成 为 微 处 理 器 的 能 力 和 功能 不 断 发 展 的 开端 。 

这 一 演变 从 处 理 器 一 次 所 能 处 理 的 位 数 就 可 能 容易 地 看 出 。 虽 然 没 有 明确 的 衡量 方法 ， 但 
最 好 的 衡量 方法 也 许 就 是 数据 总 线 的 宽度 : 处 理 器 能 够 一 次 同时 输入 或 输出 的 数据 位 数 。 男 一 
种 衡量 方法 是 看 累加 器 或 通用 寄存 器 组 的 数据 位 数 。 虽 然 有 时 两 种 方法 得 出 的 结构 碰巧 相同 ， 
但 并 非 总 是 如 此 。 例 如 ， 有 许多 微 处 理 器 的 寄存 器 位 数 是 16 位 ， 但 其 数据 总 线 却 只 有 8 位 。 

微 处 理 器 演变 中 另 一 个 主要 进步 是 1972 年 出 现 的 Intel 8008 ， 这 是 第 一 个 8 位 的 微 处 理 器 ， 
它 几 乎 比 4004 复杂 一 倍 。 

这 两 种 产品 都 没有 下 面 的 这 一 事件 影响 深远 : 1974 年 出 现 了 Intel 8080， 这 是 第 一 个 通用 微 
处 理 器 。4004 和 8008 是 为 特殊 用 途 而 设计 的 ， 而 8080 是 为 通用 微机 设计 的 中 央 处 理 器 。 它 与 
8008 一 样 ， 都 是 8 位 微 处 理 器 ， 但 8080 更 快 、 有 丰富 的 指令 集 且 有 更 强 的 寻 址 能 力 。 

大 约 在 同时 ，16 位 微 处 理 器 被 开发 出 来 ,但 直到 20 世纪 70 年 代 末 才 出 现 强大 的 通用 16 位 
微 处 理 器 ，8086 便 是 其 中 之 一 。 这 一 发 展 趋势 中 的 男 一 阶段 是 在 1981 年 ， 贝 尔 实验 室 和 HP 公司 
开发 出 了 32 位 单 片 微 处 理 器 。Intel 于 1985 年 推出 了 其 32 位 微 处 理 器 Intel 80386 (如 表 2-6 所 示 ) 。 


H26 Intl 微 处 理 器 的 演变 
a) 20 世纪 70 年 代 的 处 理 器 

































































4004 8008 8080 8086 8088 
发 布 时 间 1971 年 | 1972 年 1974 年 1978 年 | 1979 年 
时 钟 速度 108kHz 108kHz 2MHz | 5MHz, 8MHz, 10MHz | 5MHz, 8MHz 
总 线 宽 度 4 位 8 位 8 位 16 位 8 位 
晶体 管 数量 2300 3500 6000 29 000 29 000 
特征 尺寸 (微米 ) 10 6 3 6 
可 寻 址 存储 器 640 字 节 16KB 64KB 1MB 1MB 

b) 20 世纪 80 年 代 的 处 理 器 
80286 386TM DX 386TM SX 486TM DX CPU 

发 布 时 间 1982 年 1985 年 1988 年 1989 年 
时 钟 速 度 6 ~ 12.5MHz pi 16 ~33MHz 16 ~33MHz 25 ~ 50MHz 
总 线 宽度 16 位 32 位 16 位 32 位 
晶体 管 数 量 134 000 275 000 275 000 1 200 000 
特征 尺寸 (微米 ) 1.5 1 1 0.8 ~1 
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( 续 ) 
b) 20 世纪 80 年 代 的 处 理 器 
80286 386TM DX 386TM SX | 486TM DX CPU 














可 寻 址 存储 器 16MB | 4GB 16MB 
虚拟 存储 器 1GB 
高 速 缓存 一 





64TB 64TB 








= = | 8KB 


ik 


c) 20 世纪 90 年 代 的 处 理 器 


486TM SX Pentium Pentium Pro Pentium 开 
发 布 时 间 1991 年 


1993 年 1995 年 1997 年 
ee 
时 钟 速度 16 ~33MHz 60 ~ 166MHz 150 ~ 200MHz 200 ~ 300MHz 
总 线 宽度 32 位 32 位 64 位 64 位 


晶体 管 数量 1.185 百 万 3.1 百 万 5.5 百 万 7.5 百 万 
特征 尺寸 (微米 ) 1 0.8 0.6 0.35 
























































可 寻 址 存储 器 4GB 4CB 64GB 64GB 

虚拟 存储 器 64TB 64TB 64TB 64TB 

高 速 缓存 8kB 8kB 512kB L1 和 1MB 12 512kB 12 
d) 最 近 的 处 理 器 






































Pentium Ill Pentium 4 Core 2Duo Core 2Quad 
发 布 时 间 1999 年 2000 年 2006 年 2008 年 

时 钟 速度 450 ~ 600MHz 1.3 ~1.8GHz 1.06 ~ 1.2GHz 3GHz 

总 线 宽 度 64 位 64 位 64 位 64 位 

晶体 管 数量 9.5 百 万 42 百 万 167 百 万 820 百 万 
特征 尺寸 (微米 ) 0.25 | 0.18 0.065 0.045 

可 寻 址 存储 器 64GB 64GB 64GB 64GB 












虚拟 存储 器 





64TB 
512kB L2 


64TB 














256kB L2 


2.2 性 能 设计 

计算 机 系统 的 价格 都 在 逐年 下 降 ， 而 它们 的 性 能 和 容量 却 在 显著 提高 。 在 仓储 商场 ， 用 不 到 
1000 美元 就 能 买 到 与 10 年 前 的 IBM 大 型 机 具有 相同 性 能 的 个 人 电脑 。 因 此 ， 我 们 拥有 几乎 是 
“免费 ”的 计算 机 功能 ， 而 这 一 持续 不 断 的 技术 革命 使 开发 极 复杂 和 极 高 性 能 的 应 用 成 为 可 能 。 
例如 ， 今 天 基于 微 处 理 器 系统 的 功能 强大 的 桌面 应 用 包括 : 图 像 处 理 、 语 音 识 别 、 视 频 会 议 、 多 
媒体 创作 、 文 件 的 语音 和 视频 注解 、 模 拟 建 模 。 

工作 站 系统 目前 支持 高 度 复 杂 的 工程 和 科学 应 用 以 及 模拟 系统 ， 并 且 具 有 支持 图 像 和 视频 
应 用 的 能 力 。 此 外 ， 工 商业 正 依赖 于 功能 强大 的 服务 器 来 完成 交易 和 进行 数据 库 处 理 ， 并 用 它 来 
支持 大 型 客户 /服务 器 网 络 ， 以 替代 背 日 庞大 的 大 型 机 的 计算 中 心 。 

从 计算 机 组 成 和 结构 的 角度 来 看 ， 发 人 深 省 的 是 : 一 方面 ， 组 成 今天 计算 机 奇迹 的 基本 模块 
与 50 年 前 的 IAS 计算 机 基本 相同 ; 另 一 方面 ， 从 现 有 材料 中 挤 出 最 后 一 丁点 性 能 的 技术 都 变 得 
日 益 复 杂 。 

这 一 观察 结果 是 陈述 本 书 的 指导 原则 。 当 考察 计算 机 各 个 组 成 部 件 的 时 候 ， 我 们 追求 两 个 
目标 : 第 一 ， 本 书 解释 每 个 所 考察 领域 的 基本 功能 ; 第 二 ， 本 书 探寻 为 达到 最 大 性 能 所 要 求 的 技 
术 。 本 节 的 剩余 部 分 将 突出 性 能 设计 所 涉及 的 关键 因素 。 
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2.2.1 微 处 理 器 的 速度 


Intel x86 处 理 器 或 IBM 大 型 机 如 此 震撼 人 心 的 强大 功能 来 自 处 理 器 芯片 制造 商 对 速度 的 执着 
追求 。 这 些 机 器 的 演变 一 直 遵 循 前 面 介绍 的 摩尔 定律 。 只 要 这 个 定律 保持 有 效 ， 必 片 制造 商 就 能 
每 3 年 发 布 新 一 代 的 芯片 ， 其 晶体 管 数 为 上 一 代 芯 片 的 4 倍 。 对 于 内 存 芯 片 ， 仍 旧 采 用 基本 的 主 
存储 器 技术 ， 动 态 随机 存储 器 (DRAM) 的 容量 每 3 年 提高 4 倍 。 对 于 微 处 理 器 ， 通 过 增加 新 的 
电路 ， 减 小 电路 间 的 距离 来 提高 速度 ， 使 得 性 能 每 3 年 提高 4~5 倍 ， 从 1987 年 开始 推出 的 Intel 
x86 系列 也 是 如 此 。 
但 是 ， 除 非 以 计算 机 指令 的 形式 不 断 向 它 提供 持续 的 工作 流 ， 和 否则 微 处 理 器 将 达 不 到 它 的 
潜在 速度 。 任 何 阻碍 工作 流 的 事件 都 会 降低 处 理 器 的 功能 。 因 此 ， 当 芯片 制造 商 忙 于 研究 怎样 不 
断 提 高 芯片 集成 度 的 同时 ， 处 理 器 的 设计 者 必须 提供 更 加 复杂 的 技术 来 填 饱 这 个 怪物 。 当 代 处 
理 器 所 包含 的 技术 有 : 
。 转移 预测 : 处 理 器 提前 考察 取 自 内 存 的 指令 代码 ， 并 预测 哪 条 分 支 指令 或 哪 组 指令 可 能 
下 一 步 将 会 被 执行 。 如 果 处 理 器 大 部 分 时 间 的 猜测 是 正确 的 ， 则 它 能 预 取 正确 的 指令 ， 
并 将 它们 放 人 缓存， 这 样 处 理 器 就 会 始终 处 于 繁忙 之 中 。 这 种 预测 策略 的 更 复杂 例子 是 
不 只 预测 下 面 一 个 分 支 ， 还 要 提前 预测 多 条 分 支 。 如 此 ， 转 移 预 测 增加 了 可 供 处 理 器 执 
行 的 工作 量 。 

。 数据 流 分 析 : 处 理 器 通过 分 析 哪 一 条 指令 依赖 其 他 指令 的 结果 或 数据 ， 来 优化 指令 调度 。 
事实 上 ,准备 好 的 指令 就 可 以 被 调度 执行 ,不 必 按 照 原来 程序 的 顺序 ， 这 减少 了 不 必要 
的 延 时 。 

o 推测 执行 : 使 用 转移 预测 和 数据 流 分 析 ， 一 些 处 理 器 让 指令 在 程序 实际 执行 之 前 就 “ 推 
测 执行 "， 并 将 结果 存储 在 暂时 的 空间 。 通 过 执行 可 能 需要 的 指令 ， 可 以 使 处 理 器 的 执行 
机 制 尽 可 能 地 保持 繁忙 。 

以 上 技术 以 及 其 他 复杂 的 技术 是 实现 处 理 器 强大 功能 所 必需 的 ， 它 们 使 得 充分 利用 处 理 器 
速度 成 为 可 能 。 


2.2.2 ”性 能 平衡 


当 处 理 器 的 性 能 以 惊人 的 速度 向 前 发 展 的 时 候 ， 计 算 机 的 其 他 关键 部 件 并 没有 跟 上 。 这 引 
发 了 寻求 性 能 平衡 的 需要 : 调整 组 成 和 结构 ， 以 补偿 各 种 部 件 之 间 的 能 力 不 匹 配 。 
处 理 器 和 主 存储 器 的 接口 问题 是 这 些 不 匹配 问题 中 最 重要 的 。 考 虑 图 2-10 中 所 描述 的 历史 。 
随 着 处 理 器 速度 的 快速 增长 ， 主 存储 器 和 处 理 器 之 间 的 数据 传输 率 却 严重 滞后 。 处 理 器 和 主 存 
储 器 之 间 的 接口 是 整个 计算 机 中 最 关键 的 通路 ， 因 为 它 负责 在 存储 器 芯片 和 处 理 器 之 间 运 送 持 
续 的 程序 指令 和 数据 流 。 如 果 存 储 器 或 通路 跟 不 上 处 理 器 持续 不 断 的 需求 ， 处 理 器 就 会 经 常 处 
于 等 待 状态 ， 宝 贵 的 处 理 器 时 间 就 被 浪费 。 
有 许多 系统 结构 的 方法 来 解决 这 个 问题 ， 而 所 有 这 些 方 法 又 反映 在 当代 计算 机 设计 中 。 考 
虑 如 下 一 些 例 子 : 
。 通过 使 DRAM 的 接口 “更 宽 ” 而 不 是 “更 深 ”， 以 及 增 大 总 线 的 数据 宽度 ， 来 增加 每 次 
所 能 取出 的 位 数 。 
© 通过 在 DRAM 芯片 中 加 入 高 速 缓存 或 其 他 缓冲 机 制 来 改变 DRAM 接口 ， 使 其 更 加 
有 效 。 





O 高 速 缓存 是 指 在 大 而 慢 的 存储 器 与 存 取 此 存储 器 的 处 理 器 逻辑 之 间 插 和 人 的 一 个 相对 小 而 快 的 存储 器 。 此 高 速 缓存 
保存 最 近 被 访问 过 的 数据 ， 并 被 设计 用 来 加 快 对 同一 数据 的 后 续 访 问 。 高 速 缓存 的 讨论 在 第 4 章 。 





图 2-10 ”处理 器 逻辑 和 存储 器 的 性 能 差距 [BORK03 ] 


。 通过 在 主 存 和 处 理 器 之 间 引 入 更 复杂 、 更 有 效 的 高 速 缓存 结构 ， 来 减少 存储 器 访问 频 度 。 
这 包括 在 处 理 器 发 片 中 加 入 一 级 或 者 多 级 高 速 缓存， 以 及 在 靠近 处 理 器 心 片 的 地 方 加 入 
片 外 高 速 缓存 。 
。 通过 使 用 高 速 总 线 和 分 层 总 线 来 缓冲 和 结构 化 数据 流 ， 从 而 增加 处 理 器 与 存储 器 之 间 相 
互 连 接 的 带宽 。 
另 一 个 设计 焦点 是 VO 设备 的 处 理 。 由 于 计算 机 变 得 更 快 、 更 强大 ， 人 们 开发 出 更 加 复杂 的 
应 用 来 支持 使 用 要 求 频繁 VO 操作 的 外 设 。 图 2-11 给 出 个 人 计算 机 和 工作 站 使 用 的 一 些 典 型 例 
子 。 这 些 设备 要 求 很 高 的 数据 吞吐 量 。 虽 然 目前 的 处 理 器 能 够 处 理 这 些 设备 输出 的 数据 ,但 在 处 
理 器 和 外 设 之 间 传 送 数据 仍 存在 着 问题 。 这 里 的 策略 包括 缓冲 和 暂 存 机 制 ， 以 及 使 用 高 速 互 连 
和 更 为 精巧 的 总 线 结构 。 此 外 ， 使 用 多 处 理 器 配置 有 助 于 满足 O 的 需要 。 





数据 速率 (bps) 


图 2-11 典型 O 设备 的 数据 速率 
所 有 问题 的 关键 是 平衡 。 设 计 者 始终 努力 平衡 处 理 器 部 件 、 主 存储 器 、LO 设备 及 互 连 结构 
的 吞吐 量 和 处 理 要 求 。 设 计 必 须 不 断 更 新 ， 以 应 付 两 个 始终 变化 的 因素 : 
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© 从 一 种 类 型 的 元 器 件 到 男 一 种 类 型 的 元 器 件 ， 对 于 各 种 不 同 的 技术 领域 (处 理 器 、 总 线 、 
存储 器 、 外 设 ) ， 它 们 性 能 提高 的 速率 相差 很 大 。 
。 新 的 应 用 和 新 的 外 围 设备 根据 典型 指令 的 描述 和 数据 访问 模式 不 断 改变 对 系统 特性 的 
要 求 。 
因此 ， 计 算 机 设计 是 一 种 不 断 演变 的 艺术 。 本 书 试图 呈现 这 种 艺术 形式 所 依赖 的 基础 ， 以 及 
这 种 艺术 的 当前 发 展 状况 。 


2.2.3 ”芯片 组 成 和 体系 结构 的 改进 


当 设计 人 员 努 力 解决 处 理 器 性 能 与 主 存储 器 及 其 他 部 件 的 平衡 问题 时 ， 提 高 处 理 器 速度 的 
需求 仍 在 增长 。 有 三 种 办 法 可 实现 处 理 器 的 提速 : 
。 提高 处 理 器 硬件 速度 : 这 个 提速 基本 上 要 归功 于 处 理 器 芯片 上 逻辑 门 的 尺寸 减 小 ， 以 便 
更 多 的 门 能 更 紧密 地 组 装 在 一 起 ; 也 要 归功 于 时 钟 频率 的 提升 。 随 着 门 电路 更 紧密 地 集 
成 在 一 起 ,信号 的 传播 时 间 显著 地 降低 ， 从 而 允许 处 理 器 提速 。 时 钟 频 率 的 提升 意味 着 
每 个 操作 被 更 迅速 地 执行 。 
。 提高 插入 在 处 理 器 和 主 存 之 间 的 cache 容量 和 速度 。 尤 其 是 ， 将 处 理 器 芯片 自身 的 一 部 分 
用 做 cache, cache 的 存 取 时 间 会 显著 降低 。 
e 改变 处 理 器 的 组 成 和 体系 结构 以 提高 指令 执行 的 有 效 速度 。 典 型 地 ， 这 包含 使 用 各 种 形 
式 的 并 行 性 。 
传统 上 ， 人 性 能 增益 的 主导 因素 是 时 钟 速度 的 提升 和 逻辑 密度 的 提高 。 图 2-12 说 明了 Intel 处 
理 器 芯片 的 这 种 趋势 。 然 而 ， 随 着 时 钟 速度 和 逻辑 密度 的 提高 ， 几 个 障碍 变 得 更 加 显著 
[ INTE04b |] : 
° HH: 随 着 芯片 上 逻辑 密度 和 时 钟 速度 的 提高 ， 芯 片 消耗 的 功率 密度 ( 瓦 /cem ) 也 随 之 
提高 。 高 密 、 高 速 芯片 的 散热 困难 成 为 一 个 重要 的 设计 问题 ( [CIBB04] 、[ BORK03] ) 。 
e RC 延迟 : 电子 在 芯片 上 各 晶体 管 间 流动 的 速度 受 限 于 连接 它们 的 金属 线 的 电阻 和 电容 。 
特别 是 ， 延 迟 随 RC 之 积 的 增长 而 增长 。 由 于 芯片 上 元 件 尺寸 变 小 ， 互 连 线 更 细 ， 从 而 
电阻 增加 了 ; 同时 ， 线 排列 更 紧密 ， 电 容 也 增 大 了 。 
。 存储 器 滞后 : 正如 前 面 所 讨论 过 的 ， 存 储 器 速度 落后 于 处 理 器 速度 。 
于 是 ， 这 里 更 强调 以 组 成 和 体系 结构 的 办 法 来 改善 性 能 。 图 2-12 说 明了 这 些 年 来 在 提高 并 
行 性 以 及 所 带 来 的 处 理 器 计算 效率 的 提高 等 方面 发 生 的 变化 。 本 书 的 后 几 章 将 讨论 这 些 技术 。 
除了 通过 简单 地 提高 时 钟 速度 所 实现 的 性 能 提升 之 外 ， 从 20 世纪 80 年 代 后 期 开始 并 一 直 持 
续 了 约 15 年 ， 为 进一步 提升 性 能 还 采用 两 种 主要 策略 。 第 一 ， 增 加 cache 容量 。 现 在 ， 处 理 器 
与 主 存 之 间 一 般 都 有 两 级 或 三 级 cache。 由 于 芯片 密度 的 提高 ， 更 多 的 cache 存储 器 已 集成 到 处 
理 器 芯片 上 ， 从 而 允许 更 快 的 cache 访问 。 例 如 ， 最 初 Pentium 芯片 将 大 约 10% 的 芯片 面积 用 于 
cache， 而 最 近 的 Pentium 4 芯片 将 大 约 一 半 的 芯片 面积 用 于 cache, 
第 二 ， 处 理 器 内 指令 执行 逻辑 变 得 越 来 越 复杂 ， 以 允许 处 理 器 内 指令 并 行 执行 。 两 个 值得 重 
视 的 设计 办 法 是 流水 化 和 超标 量化 。 指 令 流 水 线 的 工作 情况 非常 类 似 于 制造 厂 的 装配 线 ， 它 人 允 
许 不 同 指令 的 不 同 执行 段 在 流水 线 上 同时 工作 。 本 质 上 讲 ， 超 标量 办 法 是 允许 在 单个 处 理 器 内 
有 多 条 指令 流水 线 ， 以 便 彼此 无 关 的 指令 能 并 行 地 执行 。 
这 两 种 策略 正在 到 达 收 益 递减 点 。 当 代 人 处 理 器 的 内 部 组 织 已 是 非常 复杂 ， 并 能 够 从 指令 流 
中 压榨 出 大 量 的 并 行 性 。 看 起 来 ,在 这 个 方向 上 进一步 显著 地 提升 性 能 是 相当 有 限 的 
[ GIBB04 ] 。 随 着 处 理 器 芯片 设置 三 级 cache， 每 级 都 有 相当 大 的 容量 ， 看 来 增加 cache 容量 所 带 
来 的 好 处 也 达到 了 瓶颈 。 
然而 ， 简 单 地 依靠 提高 时 钟 频率 来 提高 性 能 又 走 人 了 已 指出 的 功率 消耗 问题 。 时 钟 频率 越 
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R, 消耗 的 功率 就 越 大 ， 并且 将 达到 某 些 基 本 的 物理 限制 。 

考虑 到 所 有 这 些 困难 ,设计 者 已 转向 一 种 根本 性 的 新 办 法 来 改善 性 能 . 在 同一 芯片 上 安排 
多 个 处 理 器 并 带 有 大 的 共享 cache。 同 一 芯片 上 多 个 处 理 器 的 使 用 ， 也 称 为 多 核 (multiple cores 
或 multicore) ， 提 供 了 无 需 提 高 时 钟 频率 就 能 提高 性 能 的 潜力 。 已 有 研究 指出 ， 在 处 理 器 内 ， 人 性 
能 的 提高 大 致 正比 于 复杂 度 提高 的 平方 根 [BORK03 ] 。 但 是 ， 如 果 软 件 能 够 有 效 地 支持 多 个 处 
理 器 的 使 用 ， 则 处 理 器 数目 的 加 倍 几乎 使 性 能 加 倍 。 因 此 ， 此 策略 是 使 用 芯片 上 两 个 较 简单 的 处 
理 器 ， 而 不 是 一 个 更 复杂 的 处 理 器 。 

此 外 ， 具 有 两 个 处 理 器 ， 一 个 更 大 的 cache 也 是 恰当 的 。 因 芯片 上 存储 逻辑 的 功 耗 远 小 于 处 
理 逻 辑 的 功 耗 ， 故 这 种 安排 很 重要 。 未 来 几 年 ， 我 们 可 以 期 望 最 新 的 处 理 器 芯片 将 具有 多 个 处 
理 器 。 


2.3 Intel x86 体系 结构 的 进展 


贯穿 本 书 ， 我 们 依赖 计算 机 设计 和 实现 的 许多 具体 实例 来 说 明 各 种 概念 ， 并 阐述 各 类 方法 
之 间 的 权衡 。 本 书 主要 依据 两 个 计算 机 系列 的 例子 : Intel x86 Al ARM 体系 结构 。 当 代 的 Intel x86 
代表 了 在 复杂 指令 集 计 算 机 (CISC) 中 几 十 年 设计 成 果 的 结晶 ， 它 采用 了 过 去 只 有 大 型 机 和 超 
级 计算 机 中 才 会 采用 的 复杂 设计 原则 ， 是 CISC 设计 的 优秀 范例 。 处 理 器 设计 的 另 一 种 方法 是 精 
简 指 令 集 计算 机 (RISC), ARM 体系 结构 被 广泛 应 用 于 各 种 类 型 的 艇 入 式 系统 ， 它 是 市 场 上 基 
于 RISC 技术 的 功能 最 强大 、 设 计 最 好 的 系列 之 一 。 

下 面 将 简单 描述 这 两 个 系统 。 

依据 市 场 份额 ，Intel 公司 在 过 去 的 几 十 年 中 始终 是 微 处 理 器 ( 非 舱 入 式 系统 ) 的 领先 制造 
商 ， 这 一 地 位 似乎 难以 动摇 。 其 旗舰 的 微 处 理 器 产品 的 演变 历史 ， 是 整个 计算 机 技术 演变 的 一 个 
很 好 的 写照 。 

表 2-6 给 出 了 这 一 演变 的 历史 。 有 趣 的 是 ， 当 微 处 理 器 变 得 更 快 更 复杂 时 ，Intel 的 步调 总 是 
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那么 合拍 。 过 去 Intel 习惯 于 每 4 年 开发 出 一 种 新 的 处 理 器 ， 但 它 期 望 将 每 代 开 发 时 间 缩 短 到 
1 ~2 年 ， 以 继续 保持 领先 优势 ， 并 且 已 经 这 样 做 了 ， 从 而 加 速 推出 了 几 代 最 新 的 x86 产品 。 

列 出 Intel 产品 系列 的 一 些 主要 进展 是 有 益 的 : 

e 8080: 世界 上 第 一 台 通用 微 处 理 器 。 它 是 8 位 机 ， 存储 器 的 数据 通路 为 8 位 。8080 曾 用 
于 第 一 台 个 人 计算 机 Altair。 
8086: 比 8080 更 强大 的 16 位 微 处 理 器 。 除 了 更 宽 的 数据 通路 和 更 大 的 寄存 器 外 ，8086 
还 支持 指令 高 速 缓存 (或 称 为 队列 ) ， 在 指令 被 实际 执行 之 前 ， 它 能 预 取 几 条 指令 。 这 
种 处 理 器 的 一 个 变形 是 8088 ，8088 曾 用 于 IBM 公司 的 第 一 台 个 人 计算 机 ， 并 确保 了 Intel 
的 成 功 。8086 标志 着 x86 体系 结构 的 首次 出 现 。 
80286: 它 是 8086 的 扩展 产品 ， 可 以 寻 址 16MB 的 存储 器 ， 而 不 是 1MB 存储 空间 。 
80386 : Intel 的 第 一 个 32 位 机 器 ， 是 一 个 有 重大 改进 的 产品 。 其 32 位 的 体系 结构 ， 使 
80386 的 复杂 程度 和 功能 可 以 与 几 年 前 推出 的 小 型 机 和 大 型 机 相 媲 美 。80386 是 Intel 公司 
第 一 个 支持 多 任务 的 处 理 器 ， 即 它 能 够 同时 运行 多 个 程序 。 
80486: 80486 采用 了 更 为 复杂 、 功 能 更 强 的 高 速 缓存 技术 和 指令 流水 线 技术 。 它 的 内 置 
式 的 数学 协 处 理 器 ， 减 轻 了 主 处 理 器 的 复杂 算术 运算 的 负担 。 
Pentium: 从 Pentium 开始 ，Intel 推出 了 超标 量 技术 ， 它 允许 多 条 指令 并 行 地 执行 。 
Pentium Pro: Pentium Pro 继续 推进 由 Pentium 开始 的 超标 量 结 构 ， 极 富 进 取 性 地 使 用 了 
包括 寄存 器 重 命名 、 分 支 预测 、 数 据 流 分 析 、 推 断 执 行 等 技术 。 
Pentium I : 融入 了 专门 用 于 有 效 处 理 视 频 、 音 频 和 图 形 数据 的 Intel MMX 技术 。 
Pentium M: 融入 了 一 些 附加 的 浮 点 数 指令 ， 以 便 支持 三 维 图 形 软 件 。 
Pentium 4: 包括 了 另 一 些 浮 点 指令 ， 并 对 其 他 多 媒体 应 用 进行 了 增强 ” 。 
Core: 这 是 第 一 款 具 有 双核 的 Intel x86 处 理 器 ， 涉 及 在 单 蕊 片上 双人 处 理 器 的 实现 。 

e Core 2: Core 2 将 体系 结构 扩展 到 64 位 。Core 2 Quad 在 单 芯片 上 提供 了 4 个 处 理 器 。 

Intel x86 体系 结构 自 1978 年 推出 至 今 已 有 30 多 年 ， 它 一 直 统 治 着 除 从 人 式 系统 之 外 的 处 理 
器 市 场 。 虽 然 x86 机 器 的 组 成 和 技术 在 几 十 年 间 发 生 着 戏剧 性 的 变化 ， 但 其 指令 集结 构 一 直 保持 
着 向 后 兼容 其 早期 的 版 本 ， 因 此 ， 任 何 写 于 x86 体系 结构 早期 版 本 的 程序 都 可 以 在 其 更 新 的 版 
本 上 运行 。 所 有 对 指令 集结 构 的 改变 都 是 添加 指令 集 ， 而 不 是 减少 指令 集 。30 多 年 来 ， 指 令 
集 的 变化 速度 大 约 是 每 月 增加 1 条 其 他 指令 [ANTH08] ， 因 此 ， 目 前 x86 指令 集 有 500 多 条 
指令 。 

Intel x86 极 好 地 说 明了 过 去 30 多 年 来 计算 机 硬件 的 发 展 。1978 年 推出 的 8086， 其 时 钟 频 率 
为 5MHz， 包含 29 000 个 晶体 管 。 而 2008 年 推出 的 4 核 Core 2， 其 主 频 为 3GHz， 是 8086 的 600 
倍 ; 它 包含 8.2 亿 个 晶体 管 ， 大约 是 8086 的 28 000 倍 。 然 而 ，Core 2 只 是 比 8086 的 封装 稍微 大 
一 点 ， 且 价格 可 比 。 


2.4 RAK ASA ARM 

ARM 体系 结构 是 指 其 处 理 器 结构 遵循 RISC 设计 原则 ， 并 用 于 嵌入 式 系 统 之 中 。 

第 13 章 将 详细 说 明 RISC 的 设计 原则 。 本 节 将 简要 给 出 舱 入 式 系统 的 概念 ， 然 后 考察 ARM 
的 演变 。 


2.4.1 BARRA 
术语 “ 艇 入 式 系统 ”是 指 电子 学 和 软件 在 产品 中 的 使 用 ， 它 与 通用 计算 机 系统 不 同 ， 例 如 肤 
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上 计算 机 或 桌面 系统 。 下 面 是 一 种 很 好 的 定义 ”: 


BARRA: 是 计算 机 硬件 、 软 件 和 可 能 附加 的 机 械 或 其 他 部 分 的 一 种 组 合 ， 用 于 执行 特定 
的 功能 。 在 许多 情况 下 ， 府 入 式 系统 是 大 型 产品 和 系统 的 组 成 部 分 ， 例 如 轿车 的 刹车 系统 。 


骨 入 式 系统 超出 了 通用 计算 机 ， 具 有 更 广泛 的 应 用 ， 如 表 2-7 所 示 。 这 些 系统 有 各 种 变化 的 
需求 和 限制 ， 如 下 所 述 [CRIM05 ] : 

。 从 小 到 大 的 系统 ， 意 味 着 完全 不 同 的 成 本 限制 ， 因 此 ， 对 优化 和 再 利用 有 不 同 的 要 求 。 

。 不 严格 的 到 非常 严格 的 需求 和 不 同 质量 要 求 的 组 合 ， 例 如 ， 关 于 安全 性 、 可 靠 性 、 实 时 
性 、 灵 活性 和 合法 性 的 需求 。 

。 从 短 到 长 的 生命 时 间 。 

。 依据 不 同 的 环境 条 件 ， 例 如 ， 辐 射 、 振 动 和 潮湿 环境 。 

。 不 同 的 应 用 特征 导致 了 静态 负载 对 动态 负载 、 慢 速 对 快速 、 计 算 密集 型 任务 对 交互 密集 
型 任务 以 及 它们 的 组 合 。 

。 不 同 的 计算 模型 ， 从 离散 事件 系统 到 包含 连续 时 间 动 态 的 系统 (通常 是 指 混合 系统 )。 


表 2-7 嵌入 式 系统 及 其 市 场 的 例子 [NOER05 ] 
市 场 MARR 


点 火 系统 
汽车 发 动机 控制 


刹车 系统 
数字 和 模拟 电视 
EME 〈 数 字 化 视频 光盘 、 录 像 机 、 分 线 盒 ) 


个 人 数字 助理 (PDA) 

厨房 用 具 (冰箱 、 烤 箱 、 微 波 炉 ) 
消费 电子 汽车 

玩具 /游戏 机 

电话 /手机 / 呼 机 









































机 器 人 和 用 于 制造 业 的 控制 系统 
传感器 


WRR 
透析 机 
弥补 术 设备 
心脏 监视 器 


传真 机 
影印 机 
打印 机 
监视 器 
扫描 仪 


工业 控制 








医学 











办 公 自 动 化 


通常 ,嵌入 式 系统 与 其 环境 密切 相关 。 这 能 够 通过 环境 的 相互 影响 而 引起 实时 限制 。 所 有 限 
制 ， 例 如 运动 速度 的 要 求 、 测 量 精度 的 要 求 和 时 间 期 间 的 要 求 ， 表 明了 软件 操作 的 定时 。 如 果 必 
须 同时 处 理 多 个 行为 ， 则 包含 更 复杂 的 限制 。 

基于 [KOOP96], K 2-13 给 出 了 一 个 嵌入 式 系统 组 成 的 基本 术语 。 除 了 处 理 器 和 存储 器 ， 
还 有 很 多 不 同 于 典型 桌面 或 膝 上 计算 机 的 元 件 : 





日 迈克尔: 巴尔 ， 骨 入 式 系统 术语 表 ， 参 见 Netrino 技术 图 书馆 ， 网 址 为 http: //www.netrino.com/Publication/ Glossa- 
ry /index. php, 
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。 可 能 有 各 种 用 于 测量 、 操 作 和 其 他 与 外 部 环境 交互 的 界面 。 

人 机 界面 可 以 像 内 光一 样 简单 ， 也 可 以 像 实 ~ 
时 机 器 人 视觉 一 样 复杂 。 

诊断 端口 可 以 用 来 诊断 正在 控制 的 系统 ， 而 
不 仅仅 是 诊断 计算 机 。 

特殊 用 途 的 现场 可 编程 门 阵 列 (FPGA), & 
用 集成 电路 〈ASIC ) 、 甚 至 非 数字 式 硬 件 ， 
可 以 用 来 增强 性 能 或 安全 性 。 

软件 常常 有 一 个 固定 的 功能 并 且 对 该 应 用 有 
特效 。 











2.4.2 ARM 的 进展 


ARM 是 一 种 由 英国 剑桥 ARM 公司 设计 的 基于 
RISC 的 微 处 理 器 和 微 控 制 器 序列 。 该 公司 并 不 生产 图 2-13 ”一 个 嵌入 式 系统 的 可 能 组 成 
处 理 器 ， 而 是 设计 微 处 理 器 和 多 核 的 体系 结构 ， 然 
后 向 制造 商 发 放 许 可 。ARM 芯片 是 高 速 的 处 理 器 ， 这 是 因为 它们 的 小 特征 尺寸 和 低能 耗 需 求 。 
它们 被 广泛 应 用 于 PDA 以 及 其 他 手提 设备 中 ,包括 手机 和 游戏 机 以 及 各 种 消费 产品 。ARM 芯片 
是 苹果 公司 流行 的 iPod 和 iPhone 设备 的 处 理 器 。ARM 可 能 是 最 广泛 使 用 的 敌人 入 式 处 理 器 体系 结 
构 ， 并 且 确 实 是 世界 上 各 种 应 用 中 使 用 最 广泛 的 处 理 器 体系 结构 。 

ARM 技术 的 起 源 可 以 追溯 到 英国 的 Acom 计算 机 公司 。 在 20 世纪 80 年 代 早期 ，Acorn 获得 
了 英国 广播 公司 (BBC) 的 合同 ， 为 其 公司 的 计算 机 文化 项 目 开 发 一 款 新 的 微 计算 机 体系 结构 。 
这 个 合同 的 成 功 促使 Acom 继续 开发 出 其 第 一 款 商 用 RISC 商业 处 理 器 : ARM ( Acorn RISC Ma- 
chine) 。 第 一 个 版 本 ARMI, Æ 1985 年 变 成 可 用 ， 并 用 于 内 部 的 研究 和 开发 ， 以 及 用 于 BBC 机 
ft LYE A DAR BESS. EFE 1985 年 ，Acorn 推出 了 ARM2 ， 它 在 相同 的 物理 空间 内 比 ARM 有 更 
强 的 功能 和 更 快 的 速度 。 进 一 步 的 改进 是 1989 年 推出 的 ARM3 。 

整个 这 个 时 期 ，Acorn 利用 公司 的 VLSI 技术 做 处 理 器 芯片 的 实际 制造 。VLSI 允许 授权 其 自 
己 的 芯片 市 场 ， 同 时 使 得 其 他 一 些 公司 在 其 产品 中 使 用 ARM 也 获得 了 一 些 成 功 ， 尤 其 是 在 隘 入 
式 处 理 器 中 。 

ARM 设计 顺应 了 通信 式 应 用 中 对 高 性 能 、 低 功 耗 、 小 体积 和 低 成 本 的 处 理 器 的 不 断 增 长 的 
商业 需求 。 但 进一步 发 展 超 出 了 Acom 的 能 力 范围 ， 于 是 ， 由 Acorn, VLSI 以 及 苹果 计算 机 作为 
股东 ， 成 立 了 一 家 新 公司 ， 叫 ARM Lid, Acorn 的 RISC 机 器 变 成 了 先进 的 RISC 计算 机 2 。 新 公 
司 最 先 推出 了 ARM6 ， 它 是 ARM3 的 一 种 改进 版 本 。 接 着 ， 公 司 推出 了 许多 新 的 系列 ， 以 增强 功 
能 和 性 能 。 表 2-8 列 出 了 各 种 ARM 结构 系列 的 一 些 特 征 ， 表 中 的 数据 只 是 一 个 近似 的 指导 值 ， 
实际 值 因 不 同 的 实现 会 有 所 不 同 。 

根据 ARM 网 站 arm.com，ARM 处 理 器 用 于 满足 三 种 系统 类 别 的 需要 : 

。 嵌入 式 实时 系统 : 储藏 室 、 汽 车 和 动力 火车 、 工 业 以 及 网 络 应 用 的 系统 。 

e 应 用 平台 : 在 无 线 消 费 娱 乐 和 数字 图 像 应 用 领域 中 ， 运 行 开放 式 操 作 系 统 的 设备 ， 开 放 

式 操作 系统 包括 Linux, Palm OS, Symbian OS 和 Windows CE, 

e 安全 应 用 : BAER. SIM 卡 和 支付 终端 。 


外 部 环境 


O 该 公司 在 20 世纪 90 年 代 后 期 停止 使 用 先进 的 RISC 机 器 的 名 称 ， 现 在 简称 为 ARM 体系 结构 。 
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表 2-8 ARM 的 进展 





















































序列 显著 特征 cache 典型 的 MIPS@ MHz 
ARMI 32 位 RISC XK eit 
ARM2 — 集成 存储 器 管理 单元 ， 图 | 无 7MIPS@ 12MHz 
ARM3 第 一 次 使 用 处 理 器 cache 4KB 统一 12MIPS@ 25MHz 
ARM6 第 一 次 支持 32 位 地 址 ; 浮 点 单元 4KB 统一 28MIPS@33MHz 
ARM7 集成 SoC 8KB 统一 60MIPS@ 60MHz 
ARM8 5 段 流水 线 ; 静态 分 支 预测 8KB 统一 84MIPS@ 72MHz 
ARM9 16KB/16KB 300MIPS@ 300MHz 
ARM9E 增强 DSP 指令 | 16KB/16KB | 220MIPS@ 200MHz 
ARMI0E 6 段 流水 线 32KB/32KB 
ARMI11 9 段 流水 线 | 可 变 的 740MIPS@ 665 MHz 
Cortex 13 段 超级 流水 线 可 变 的 2000MIPS@ 1 GHz 
XScale 应 用 型 处 理 器 ; 7 段 流水 线 a 1000MIPS@ 1.25Hz 





512KB L2 


tE: DSP = 数字 信号 处 理 器 
SoC = 系统 芯片 


2.5 性 能 评价 

在 评价 处 理 器 硬件 和 设置 新 系统 的 需求 时 ， 性 能 是 必须 考虑 的 关键 因素 之 一 ， 这 包括 成 本 、 
尺寸 、 安 全 性 、 可 靠 性 以 及 某 些 情况 下 的 能 源 消耗 。 

在 不 同 的 处 理 器 之 间 、 甚 至 在 同一 系列 的 处 理 器 之 间 进 行 意 味 深 长 的 性 能 比较 是 困难 的 。 
当 执行 一 个 给 定 的 应 用 时 ， 未 加 工 的 速度 指标 远 不 及 处 理 器 如 何 完成 任务 来 得 重要 。 不 幸 的 是 ， 
应 用 的 执行 并 不 仅仅 取决 于 处 理 器 的 速度 ， 还 依赖 于 其 指令 集 、 实 现 语言 的 选择 、 编 译 器 的 效率 
以 及 实现 该 应 用 的 编程 技巧 。 

本 节 首 先 介绍 一 些 处 理 器 速度 的 传统 测量 方法 ， 然 后 考察 评定 处 理 器 和 计算 机 系统 性 能 的 
最 常用 的 方法 ， 接 着 考虑 如 何 从 多 个 测试 中 获得 平均 结果 ， 最 后 讨论 通过 考虑 Amdahl 定律 所 产 
生 的 现象 。 


2.5.1 时 钟 速度 和 每 秒 指令 数 


1. 系统 时 钟 

处 理 器 执行 的 操作 ， 例 如 取 指 令 、 译 码 该 指令 、 执 行 算术 运算 等 ， 都 是 由 系统 时 钟 掌控 的 。 
典型 的 做 法 是 ， 所 有 操作 都 随 着 时 钟 的 脉冲 开始 。 因 此 ， 在 最 基本 的 级 别 ， 处 理 器 的 速度 由 时 钟 
产生 的 脉冲 频率 来 指示 ， 用 每 秒 周期 数 或 赫兹 (Hz) 来 测量 。 

一 般 情况 下 ， 时 钟 信号 由 水 晶振 子 产 生 ， 水 晶振 子 在 有 动力 供应 时 能 产生 一 个 连续 的 信号 
波 。 该 波 被 转化 为 一 一 个 数字 电压 脉冲 流 ， 连 续 地 供应 给 处 理 器 电路 〈 如 图 2.14 所 示 ) 。 例 如 ，_- 
个 1GHz 的 处 理 器 每 秒 接受 10 亿 个 脉冲 。 脉 冲 的 速率 被 定义 为 时 钟 频率 ， 或 时 钟 速度 。 每 增加 
一 个 脉冲 或 时 钟 被 称 为 一 个 时 钟 周期 ， 或 时 钟 滴答 声 。 两 个 脉冲 之 间 的 时 间 定 义 为 周期 时 间 。 

时 钟 频率 不 是 任意 的 ， 它 必须 适应 处 理 器 的 物理 层 。 处 理 器 中 的 操作 需要 信和 号 将 其 从 处 理 
器 的 一 个 元 件 传送 到 另 一 个 元 件 。 当 信和 号 被 放 在 处 理 器 内 部 的 一 根 线 上 时 ， 它 将 占用 一 些 有 限 
的 时 间 量 来 使 电压 水 平平 静 下 来 ， 以 便 一 个 正确 的 值 (1 或 0) 可 用 。 此 外 ， 这 取决 于 处 理 器 电 
路 的 物理 层 ， 有 些 信 号 可 能 比 其 他 信号 变化 得 更 快 ， 因 此 ， 操 作 必 须 同步 ， 以 便 适当 的 电信 号 
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来 自 《 计 算 机 百科 全 书 》， 
1998， 计 算 机 语言 公司 


图 2-14 系统 时 钟 


(电压 ) 值 可 为 每 个 操作 用 到 。 

指令 的 执行 包含 很 多 离散 的 步骤 。 例 如 ， 从 存储 器 中 取出 该 指令 、 译 码 指令 的 各 个 部 分 、 取 
和 存 数据 以 及 执行 算术 和 逻辑 运算 ， 因 此 ， 大 多 数 处 理 器 的 大 部 分 指令 需要 多 个 时 钟 周期 来 完 
成 。 有 些 指令 可 能 只 需要 几 个 周期 ， 而 另 一 些 指 令 需要 几 十 个 周期 。 此 外 ， 当 使 用 流水 线 时 ， 多 
条 指令 被 同时 执行 ， 因 此 ， 不 同 处 理 器 的 时 钟 速度 的 直接 比较 是 不 能 说 明 性 能 的 整体 情况 的 。 

2. 指令 执行 速度 

处 理 器 由 时 钟 驱动 ， 时 钟 具 有 固定 的 频率 f， 或 等 价 为 固定 的 时 钟 周期 r+， 这 里 + =1/f。 定 义 
一 个 程序 的 指令 条 数 1.， 为 运行 完 该 程序 所 执行 的 机 器 指令 条 数 。 注 意 这 是 指令 执行 的 条 数 ， 而 
不 是 该 程序 目标 代码 中 的 指令 条 数 。 程 序 的 一 个 重要 参数 是 每 条 指令 的 平均 周期 数 (average cy- 
cles per instruction，CPI) 。 如 果 所 有 指令 需要 相同 的 时 钟 周期 数 ， 则 该 程序 的 CPI 就 是 一 个 固定 
值 。 然 而 ， 对 于 任意 指定 的 处 理 器 ， 不 同 的 指令 类 型 ， 例 如 取 数 、 存 数 、 分 支 等 等 ， 会 需要 不 同 
的 时 钟 周 期 数 。 如 果 用 CPI, 来 表示 指令 类 型 i 所 需要 的 周期 数 ， 用 天 表示 在 某 一 给 定 程序 中 所 执 
行 的 i 类 指令 的 条 数 ， 则 我 们 可 以 计算 整个 CPI 如 下 : 


> (PI, x L) 


i (2.1) 


处 理 器 执行 一 个 给 定 的 程序 所 需要 的 时 间 可 以 表示 为 : 
T= x CPi xt 

我 们 可 以 通过 分 析 一 条 指令 的 执行 过 程 来 定义 该 公式 ， 指 令 执 行 的 一 部 分 工作 是 由 处 理 器 
完成 的 ， 而 另 一 部 分 时 间 花 费 在 处 理 器 与 存储 器 之 间 的 字 传 送 上 。 在 后 一 种 情况 中 ， 传 送 时 间 取 
决 于 存储 器 周期 时 间 ， 它 可 能 比 处 理 器 周期 时 间 长 。 将 上 等 式 改 写成 : 

T=I,x[p+(mxk)] xt 

这 里 , p 是 译 码 和 执行 指令 所 需要 的 处 理 器 周期 数 ，m 是 所 需 的 存储 器 访问 次 数 , 上 是 存储 器 周 
期 时 间 和 处 理 器 周期 时 间 之 比 。 上 面 等 式 中 的 5 个 性 能 因子 (1.、p、m、k、7) 受 4 个 系统 属性 
影响 :指令 集 设计 〈 亦 称 指令 集结 构 ) 、 编 译 te 
技术 (编译 器 如 何 高 效 地 将 高 级 语言 程序 转换 
为 有 效 的 机 器 语言 程序 ) 、 处 理 器 实现 以 及 
cache 与 主 存 的 层次 结构 。 基 于 [ HWAN93 ] ， 
表 2-9 是 一 个 和 矩阵， 其 横 轴 表示 5 个 性 能 因子 ， 
纵 轴 表示 4 个 系统 属性 。 单 元 中 的 说 明 系 统 
属性 影响 着 性 能 因子 。 












指令 集结 构 
编译 技术 
处 理 器 实现 | 
cache 与 主 存 的 层次 结构 
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处 理 器 性 能 的 一 个 通用 度量 是 指令 执行 的 速率 ， 表 示 成 每 秒 百 万 条 指令 (MPS), ERA 
MIPS 速度 。 我 们 可 以 用 时 钟 频率 和 CPI 表示 MIPS 速率 如 下 : 
1 
MIPS 速度 = 二 105 7 CPI x10" am 
例如 ， 考 虑 在 一 个 400MHz 的 处 理 器 上 运行 一 个 包含 200 万 条 指令 的 程序 ， 该 程序 由 四 种 主 
要 的 指令 类 型 组 成 。 基 于 程序 踪迹 实验 的 结果 ， 得 出 的 指令 混合 和 每 一 种 指令 类 型 的 CPI 如 下 : 


指令 类 型 
算术 和 逻辑 

cache 命中 的 取 数 / 存 数 
分 支 

cache 失效 的 存储 器 访问 










指令 混合 比 
60% 
18% 
12% 

10% 























oo | 上 | NN] 


当 由 单一 处 理 器 执行 该 程序 时 ， 其 平均 CPI=0.6+(2x0.18) +(4x0.12) +(8 x01) =224, 
相应 的 MIPS 速度 = (400 x 10°)/(224 x 10°) =178, 

男 一 个 通用 的 性 能 度量 仅仅 用 于 浮 点 指令 ， 这 在 很 多 科学 计算 和 游戏 应 用 中 常见 。 浮 点 性 
能 表示 为 每 秒 百 万 条 浮 点 操作 (MFLOPS) ， 定 义 如 下 : 


_ 程 序 中 执行 浮 点 操作 的 次 数 
MFLOPS 速度 = MEHI x 10° 





2.5.2 ”基准 程序 


使 用 像 MIPS 和 MFLOPS 一 样 的 度量 来 评价 处 理 器 的 性 能 已 经 被 证 明 是 不 充分 的 。 因 为 不 同 
的 指令 集 ， 所 以 指令 执行 速率 不 是 很 好 地 比较 不 同体 系 结构 性 能 的 方法 。 例 如 ， 考 虑 如 下 高 级 语 
言语 Ay: 

A=B+C /* 假设 所 有 变量 在 主 存 中 * / 

传统 的 指令 集结 构 是 指 复杂 指令 集 计 算 机 (CISC) ， 该 语句 能 够 被 编译 成 一 条 处 理 器 指令 : 

add mem(B), mem(C), mem(A) 


而 在 典型 的 RISC 机 上 ， 该 语句 可 能 被 编译 成 : 


load mem(B), reg(1); 

load mem(C), reg (2); 

add reg(1), reg(2), reg (3); 
store reg(3), mem(A) 


因为 RISC 结构 的 特性 (将 在 第 13 章 中 讨论 ) ， 所 以 两 种 机 器 可 能 花费 差不多 相同 的 时 间 运 
行 最 初 的 高 级 语言 语句 。 如 果 这 个 例子 是 两 种 机 器 的 代表 ， 则 若 CISC 机 的 速度 为 1 MIPS， 那 么 
RISC 机 的 速度 将 是 4MIPS。 但 二 者 处 理 同 量 的 高 级 语言 程序 所 需 的 时 间 相 同 。 

进一步 来 说 ， 处 理 器 执行 某 一 给 定 程 序 的 性 能 并 不 能 决定 它 将 如 何 执行 其 他 类 型 的 应 用 程 
序 。 于 是 ， 从 20 世纪 80 年 代 后 期 和 90 年 代 早期 开始 ， 业 界 和 学 术 界 喜欢 使 用 一 系列 基准 程序 
来 测量 系统 的 性 能 。 一 组 相同 的 程序 可 以 运行 在 不 同 的 机 器 上 ， 并 对 执行 时 间 进 行 比 较 。 

文献 [WEIC90] 列 出 了 作为 基准 程序 所 需要 具备 的 一 些 特 征 : 

(1) 它 由 高 级 语言 编写 ， 可 以 方便 地 应 用 于 不 同 的 机 器 。 

(2) 它 是 各 种 特殊 程序 设计 方式 的 代表 ， 例 如 ， 系 统 程序 设计 、 数 字 程序 设计 或 商业 程序 
设计 。 

(3) 易于 度量 。 

(4) 它 有 广泛 的 发 行 。 
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1. SPEC 基准 程序 

业界 、 学 术 界 和 研究 院 对 公认 的 计算 机 性 能 衡量 方法 的 共同 需求 导致 了 标准 基准 程序 集 的 
发 展 。 基 准 程序 集 就 是 一 个 程序 集合 ， 使 用 高 级 语言 定义 ， 它 试图 对 在 特殊 应 用 或 系统 程序 设计 
领域 中 的 计算 机 提供 一 种 有 代表 性 的 测试 。 最 著名 的 测试 程序 集 由 系统 性 能 评估 公司 (SPEC, 
一 种 工业 社团 ) 定义 和 维护 。SPEC 性 能 测试 广泛 应 用 于 比较 和 研究 的 目的 。 

最 著名 的 SPEC 基准 程序 集 是 SPEC CPU2006 ， 这 是 一 种 测量 强调 处 理 器 应 用 的 工业 标准 集 ， 
也 就 是 说 ，SPEC CPU2006 适合 于 测试 计算 密集 型 应 用 而 非 VO 密集 型 应 用 的 性 能 。SPEC 
CPU2006 程序 集 基 于 SPEC 工业 成 员 使 用 的 各 种 平台 上 现 有 的 应 用 ， 它 包含 17 种 使 用 C、C++ 和 
Fortran 编写 的 浮 点 程序 以 及 12 种 使 用 C 和 C++ 编写 的 整数 程序 ， 其 代码 总 量 超过 了 300 万 行 。 
SPEC CPU2006 是 SPEC 强调 处 理 器 应 用 的 第 五 代 产 品 ， 替 代 了 SPEC CPU2000, SPEC CPU95 、 
SPEC CPU92 和 SPEC CPU89 四 代 产 品 [ HENNO7] 。 

其 他 SPEC 测试 集 如 下 : 

e SPECjvm98: 试图 评估 Java 虚拟 机 (JVM) 客户 端的 软 硬 件 组 合 的 性 能 。 

e SPECjbb2000 (Java 商业 基准 程序 ) : 用 于 评估 基于 Java 的 电子 商务 应 用 的 服务 器 端的 

基准 程序 。 

e SPECweb99: 评估 万 维 网 (WWW) 服务 器 端的 性 能 。 

e SPECmail2001: 设计 用 于 测量 作为 邮件 服务 器 的 系统 的 性 能 。 

2. 平均 结果 

为 了 可 靠 地 比较 各 种 计算 的 性 能 ， 最 好 是 在 每 个 计算 机 上 运行 多 个 不 同 的 测试 程序 ， 然 后 
取 平 均 结果 。 例 如 ， 若 有 m 个 不 同 的 测试 程序 ， 则 简单 的 算术 平均 值 可 如 下 计算 : 


| 
el (2.3) 


Hh, R 是 第 i 个 测试 程序 的 高 级 语言 指令 的 执行 速度 。 
男 一 个 办 法 是 取 其 调和 平均 值 : 


Ri = 





= 1 (2.4) 
YR, 

基本 上 来 说 ， 用 户 关心 的 是 系统 的 执行 时 间 ， 而 非 它 的 执行 速度 。 如 果 我 们 获得 了 各 种 测试 
程序 的 指令 执行 速度 的 算术 平均 ， 那 么 就 能 得 到 一 个 与 执行 时 间 倒 数 之 和 成 正比 的 结果 ， 但 这 
不 与 执行 时 间 之 和 成 反比 。 换 句 话 来 说 ， 指 令 执 行 速度 的 算术 平均 并 不 能 准确 地 刻画 执行 时 间 。 
另 一 方面 ， 指 令 执 行 速度 的 调和 平均 值 是 平均 执行 时 间 的 倒数 。 

SPEC 基准 程序 不 关心 指令 执行 的 速度 ， 它 感 兴趣 的 是 另外 两 个 基本 的 度量 : 速度 度量 和 频 
率 度 量 。 速 度 度 量 测量 一 台 计 算 机 完成 单个 任务 的 能 力 。SPEC 通过 参照 机 为 每 个 基准 程序 定义 
一 个 基本 的 运行 时 间 。 在 系统 上 的 测试 结果 表示 为 参考 运行 时 间 与 系统 运行 时 间 的 比值 ， 比 值 
的 计算 如 下 : 





(2.5) 


ith, Tref, 是 基准 程序 i 在 参照 系统 上 的 运行 时 间 ， 而 Tsu, 是 基准 程序 i 在 被 测 系统 上 的 运行 
时 间 。 

作为 计算 和 报告 的 例子 ， 考 虑 Sun 公司 的 Blade 6250 ， 该 机 器 包含 两 块 芯片 ， 每 片上 有 4 个 
核 或 处 理 器 。SPEC CPU2006 整数 基准 程序 之 一 是 464.h264ref， 它 是 最 新 上 市 的 视频 压缩 标准 
H.264/AVC (先进 的 视频 编码 ) 的 参考 实现 。Sun 公司 的 Blade 6250 执行 这 个 程序 需要 934 秒 ， 
而 参考 实现 需要 22 135 秒 ， 因 此 ， 计 算 的 比值 为 : 22 136/934 =23.7。 
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由 于 被 测 系统 的 时 间 是 分 母 ， 因 此 比值 越 大 ， 速 度 越 高 。 被 测 系统 全 面 的 性 能 测量 通过 计算 
所 有 12 个 整数 基准 程序 的 平均 比值 得 到 。SPEC 详细 说 明了 几何 平均 数 的 使 用 ， 定 义 如 下 : 
Fs = (II- (2.6) 
Hp, Wi NEEFKE. XF Sun 公司 的 Blade 6250 系统 来 说 ，SPEC 整数 速度 比值 报 
告 如 下 : 


















































基准 程序 比值 基准 程序 比值 
400. perlbench 17.5 z 458.sjeng 17.0 
401. bzip2 | 14.0 462. libquantum 31.3 
403. gcc | 13.7 | 464. 264ref 23.7 
429. mef | 17.6 i 471 omnetpp 9.23 
445. gobmk 14.7 473 castor 10.9 
456 hmmer 18.6 483. xalancbmk 14.7 








对 比值 的 乘积 开 十 二 次 方 可 以 计算 得 到 速度 度量 : 
(17.5 x 14 x 13.7 x 17.6 x 14.7 x 18.6 x 17 x31.3 x23.7 x9.23 x 10.9 x 14.7)" = 18.5 
频率 度量 测量 一 台 机 器 执行 多 个 任务 的 吞吐 量 或 频率 。 对 于 频率 度量 ， 基 准 程序 的 多 个 找 
贝 被 同时 运行 。 通 常 ， 拷 贝 的 数量 与 机 器 的 处 理 器 个 数 相同 。 虽 然 计算 更 加 复杂 ， 但 频率 也 用 于 
报告 结果 。 频 率 的 计算 公式 如 下 : 
PAT N x Tref, (2.7) 
: Tsut, j 
其 中 ，7ref 是 基准 程序 i 的 参照 运行 时 间 ，N 是 同时 运行 的 程序 的 拷贝 数目 ，Tsut; 是 基准 程序 i 
的 所 有 拷贝 在 被 测 系统 的 所 有 NN 个 处 理 器 上 从 开始 执行 到 完成 任务 所 需要 的 时 间 。 同 时 ,计算 
几何 平均 值 来 决定 整体 性 能 测量 。 
SPEC 选择 使 用 几何 平均 值 ， 因 为 它 最 适合 数据 归 一 化 ， 例 如 比值 。[ FLEM86] 揭示 了 几何 
平均 值 与 所 提 到 的 计算 机 的 性 能 有 持续 的 关系 ， 无 论 该 计算 机 是 否 作为 归 一 化 的 基础 。 





2.5.3” 阿 姆 达尔 定律 
当 考虑 系统 性 能 时 ， 计 算 机 系统 设计 者 希望 通过 改进 技术 或 者 改变 设计 来 提高 性 能 ， 例 如 ， 
并 行 处 理 器 的 使 用 ， 存 储 器 高 速 缓存 的 使 用 ， 以 及 由 于 技术 的 改进 来 加 快 存储 器 的 访问 和 IO 的 
传送 速率 。 在 所 有 的 这 些 情况 中 ， 需 要 特别 注意 的 是 ， 只 是 加 速 技术 或 设计 的 一 个 方面 并 不 能 提 
高 性 能 的 相应 改善 。 用 阿 姆 达尔 (Amdahl) 定律 可 以 很 好 地 说 明 其 局 限 性 。 
阿 姆 达尔 定律 最 早 由 Gene Amdahl 在 文献 [ AMDA67] 中 提出 ， 用 于 研究 一 个 程序 在 使 用 多 
个 处 理 器 时 与 使 用 单个 处 理 器 时 可 能 出 现 的 加 速 比 。 考 虑 一 个 运行 在 单 处 理 器 上 的 程序 ， 执 行 
时 间 中 的 (1 -f) 部 分 表示 其 代码 是 固有 的 、 只 能 被 串 行 执行 的 部 分 , f 部 分 表示 其 代码 可 以 无 
限制 地 并 行 、 无 调度 负载 。 若 假设 7 为 该 程序 在 单个 处 理 器 上 的 总 执行 时 间 , 则 使 用 具有 N 个 处 
理 器 的 并 行 系统 后 ， 探 索 该 程序 整个 并 行 部 分 的 加 速 比 如 下 : 
speedup - _ 在 单个 处 理 器 上 执行 程序 的 时 间 
在 个 并 行 处 理 器 上 执行 程序 的 时 间 
MLA 
TA -f) +z a-f +f 


可 以 推导 出 两 个 重要 的 结论 : 
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(1) 当 / 非 常 小 时 ， 使 用 并 行 处 理 器 只 有 一 点 的 影响 。 

(2) 随 着 W 接 近 于 无 限 大 ， 加 速 比 被 1/(1 - 力 所 限 制 ， 因 此 使 用 更 多 的 处 理 器 只 能 导致 速 
度 下 降 。 

这 些 结论 太 翡 观 ， 一 个 断言 在 文献 [GUST88] 中 首次 提出 。 例 如 ， 一 个 服务 器 可 以 支持 多 
线程 和 多 任务 来 处 理 多 个 客户 端 ， 并 且 并 行 地 执行 线程 和 任务 ， 突 破 处 理 器 数目 的 限制 许多 数 
据 库 应 用 包含 大 量 数据 的 计算 ， 这 可 以 分 成 多 个 并 行 的 任务 。 然 而 ， 阿 姆 达尔 定律 揭示 了 计算 机 
工业 在 开发 具有 不 断 增长 的 核 数 的 多 核 机 器 时 所 面临 的 问题 : 运行 在 多 核 机 器 上 的 软件 必须 适 
应 高 速 并 行 执行 环境 ， 以 利用 并 行 处 理 的 能 力 。 

阿 姆 达尔 定律 在 评价 计算 机 系统 的 任何 设计 和 技术 改进 方面 是 通用 的 。 考 虑 任何 影响 加 束 
比 的 系统 改进 特征 ， 加 速 比 可 以 如 下 表示 
改进 后 的 性 能 _ 改进 前 的 执行 时 间 oT 
改进 前 的 性 能 “改进 后 的 执行 时 间 

假如 改进 前 系统 可 改进 部 分 的 执行 时 间 为 /, 改进 后 ， 可 改进 部 分 的 加 速 比 为 5U,， 则 系统 的 
总 加 速 比 可 以 表示 成 : 





Speedup = 


1 
ft at 
-N+ 
例如 ， 假 如 一 个 任务 密集 地 使 用 浮 点 操作 ， 浮 点 操作 占 整 个 操作 时 间 的 40% 。 现 有 一 个 新 
的 设计 ， 其 浮 点 操作 部 分 被 加 速 了 天 倍 ， 则 总 加 速 比 为 ; 


Speedup = 


即 与 XK 无 关 ， 最 大 加 速 比 为 1.67。 
2.6 ”推荐 的 读物 和 Web 站 点 


IBM 7000 系列 的 介绍 可 以 在 [BELL71] 中 找到 。[ SIEW82] X} IBM 360 的 介绍 较 全 面 ，[ BELL78a] 对 
PDP-8 和 其 他 DEC 机 器 有 较 好 的 说 明 。 这 三 本 书 同时 包含 了 20 世纪 80 年 代 早期 各 种 其 他 计算 机 的 许多 详尽 
的 例子 。[ BLAA97] 是 一 本 较 新 的 书 ， 它 包含 一 组 学 习 以 前 机 器 的 优秀 实例 。[ BETK97] 很 全 面 地 介绍 了 
微 处 理 器 的 历史 。 

[OLUK96] 、[ HAMM97] 和 [SAKA02] 讨论 了 单 芯片 上 多 处 理 器 的 动机 。 

[BREY09] 对 Intel 微 处 理 器 线 提供 了 一 个 好 的 综述 ，Intel 自己 的 资料 [INTE08] 也 很 好 。 
[SEAL00] 是 目前 可 得 到 的 、 对 ARM 结构 介绍 最 全 面 的 资料 。 [FURB00] 是 另 一 个 优秀 的 信息 源 。 
[SMIT08] 对 ARM 和 X86 在 无 线 移 动 设备 中 作为 戏 人 式 处 理 器 进行 了 有 趣 的 比较 。 

对 摩尔 定律 及 其 效果 的 有 趣 讨论 见 [HUTC96] 、[SCHA97] 和 [BOHR98] 。 

[HENN06] 对 CPU2006 中 的 每 个 基准 程序 进行 了 详细 的 描述 。[ SMIT88] 讨论 了 算术 平均 值 、 调 和 平 
均值 和 几何 平均 值 的 关系 。 
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O 在 ARM 社团 中 被 称 为 “ARM ARM” , 
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E aiii Web 站 点 


e Intel Developer Page: Intel 为 开发 人 员 设 置 的 Web 页 ， 提 供 了 访问 Pentium 信息 的 起 始 位 置 ， 还 包 
括 了 Intel 技术 期 刊 。 

e ARM: ARM 有 限 公 司 (ARM 体系 结构 的 开发 者 ) 的 主页 ， 包 括 技术 资料 。 

e Standard Performance Evaluation Corporation: SPEC 是 计算 机 工业 广泛 认可 的 组 织 ， 它 开发 的 标准 
基准 程序 被 用 来 评价 和 比较 各 种 不 同 的 计算 机 系统 的 性 能 。 

e Top500 Supercomputer Site: 对 当代 超级 计算 机 产品 的 体系 结构 和 组 成 提供 概要 的 描述 ， 并 进行 
比较 。 

e Charles Babbage Institute: 提供 与 几 个 涉及 计算 机 历史 的 Web 站 点 的 链接 。 


27 关键 词 、 思 考题 和 习题 


关键 词 

accumulator (AC); 累加 器 chip: ik Hr 

Amdahl’s law; 阿 姆 达尔 定律 data channel: 数据 通道 
arithmetic and logical unit (ALU); 算术 逻辑 单元 embedded system: ARRA 


benchmark; 基准 程序 execute cycle: 执行 周期 


fetch cycle: 取 指 周期 

input-output (1/0): 输入 /输出 

instruction buffer register (IBR): 指令 缓冲 寄存 器 
instruction cycle: 指令 周期 

instruction register (IR): 指令 寄存 器 

instruction set: 指令 集 

integrated circuit (IC) : 集成 电路 

main memory; 主 存储 器 ， 主 存 ， 内 存 

memory address register (MAR) ; 存储 器 地 址 寄存 器 
memory buffer register (MBR): 存储 器 缓冲 寄存 器 
microprocessor: {Mh HE AE 

multicore: 多 核 


思考 题 


2.1 什么 是 存储 程序 式 计 算 机 ? 
2.2 任何 通用 计算 机 的 4 个 主要 部 件 是 什么 ? 
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multiplexor: 多 路 选择 器 

opcode; 操作 码 

original equipment manufacturer (OEM): 原始 设备 制 
造 商 

program control unit: 程序 控制 器 ， 程 序 控制 单元 

program counter (PC); 程序 计数 器 

SPEC: 系统 性 能 评估 公司 

stored program computer: 存储 程序 式 计算 机 

upward compatible; 向 上 兼容 

von Neumann machine; 74 + 诺 伊 曼 机 

wafer: 晶片 

word: 字 


2.3 ”对 集成 电路 级 别 而 言 ， 计 算 机 系统 的 3 个 基本 组 成 部 分 是 什么 ? 


2.4 解释 摩尔 定律 。 
2.5 列 出 并 说 明 计 算 机 系列 的 主要 特征 。 
2.6 ”区 分 微 处 理 器 的 关键 特征 是 什么 ? 


习题 


2.1 假设 A=A(1), A(2),…, A(1000) 和 B=B(1), B(2), =, B(1000) 是 两 个 向 量 (一 维 数组 )， 每 个 


向 量 包 含 1000 个 数 ， 将 它们 加 起 来 形成 数组 C， 当 I = 1，2，…， 


1000, 有 C(I) =A(I) +B(I)。 试 


用 IAS 指令 集 编写 一 个 程序 来 解决 这 个 问题 。 忽 略 ISA 只 有 1000 个 存储 器 字 单 元 的 事实 。 

2.2 (a) 在 IAS 机 上 ， 取 存储 器 地 址 2 的 内 容 的 机 器 代码 指令 应 是 怎样 的 ? 
(b) 为 了 完成 这 条 指令 ， 在 指令 周期 内 CPU 需要 访问 多 少 次 存储 器 ? 

2.3 在 IAS 机 上 ， 需 要 通过 将 什么 放 人 MAR、MBR、 地 址 总 线 、 数 据 总 线 和 控制 总 线 ，CPU 才能 完成 由 存 
储 器 读 取 一 个 值 或 向 存储 器 写 人 一 个 值 ? 请 用 英语 描述 此 过 程 。 


2.4 给 出 IAS 机 的 存储 器 内 容 如 下 : 





内 容 











010FA210FB 








08B 


010FAOFO8D 








020FA210FB 


试 写 出 从 地 址 08A 开始 的 该 程序 的 汇编 语言 代码 ， 并 说 明 这 段 程序 做 什么 。 
2.5 指出 图 2-3 中 每 条 数据 路 径 (例如 ，AC 和 ALU 之 间 ) 的 位 宽度 。 
2.6 在 IBM 360 的 Model 65 fil Model 75 中 ， 地 址 在 两 个 分 开 的 主 存储 器 中 交错 排放 (例如 ， 所 有 的 奇数 序 
号 字 存放 在 一 个 存储 器 中 ， 而 所 有 的 偶数 字 存 放 在 另 一 个 存储 器 中 ) ， 采 用 这 一 技术 的 目的 是 什么 ? 
2.7 参照 表 2-4， 可 以 看 出 IBM 360 Model 75 的 相对 性 能 是 360 Model 30 的 50 倍 ， 而 指令 周期 时 间 只 快 了 5 


倍 。 你 如 何 解释 这 种 差异 ? 


2.8 SELLA - 鲍 勃 的 计算 机 商店 时 ， 你 听 到 一 个 顾客 问 比 利 . 鲍 勃 他 在 该 商店 能 买 到 的 最 快 的 计算 机 是 什 
Ao EA - 鲍 勃 回答 说 :“ 你 正在 看 的 是 我 们 的 Macintosh 机 器 ， 最 快 的 Mac 机 以 1.2GHz 的 时 钟 速度 运 
行 。 如 果 你 实在 想 要 最 快 的 机 器 ， 你 应 该 购买 我 们 的 2.4GHz 的 Intel Pentium 4 计算 机 。” 比 利 ' 鲍 勃 的 


回答 对 吗 ? 你 应 说 些 什么 来 帮助 这 位 顾客 ? 


2.9 ENIAC 是 一 个 十 进 制 机 器 ， 它 用 10 个 电子 管 绕 成 一 个 环 来 表示 一 个 寄存 器 。 在 任何 时 刻 ， 只 有 一 个 电 
子 管 处 于 ON 状态 ， 表 示 10 个 数字 中 的 一 个 。 假 定 ，ENIAC 有 能 力 使 多 个 电子 管 同 时 处 于 ON 和 OFF 
状态 ， 为 什么 这 种 表示 法 是 一 种 “浪费 " ， 我 们 用 10 个 电子 管 所 能 表示 整数 范围 是 什么 ? 
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2.10 某 基 准 程序 在 一 个 40MHz 的 处 理 器 上 运行 ， 其 目标 代码 有 100 000 条 指令 ， 由 如 下 各 类 指令 及 时 钟 周 

















期 计数 混合 组 成 : 
指令 类 型 指令 条 数 执行 每 条 指令 的 周期 数 
整数 运算 45 000 | 1 
数据 传送 32 000 | 2 
浮 点 数 运算 15 000 2 
控制 传送 8000 2 


试 计算 该 程序 的 有 效 CPI、MIPS 速率 和 执行 时 间 。 
2.11 考虑 两 类 不 同 的 机 器 ， 具 有 两 种 不 同 的 指令 集 ， 两 者 的 时 钟 频 率 都 是 200MHz。 在 此 两 种 计算 机 上 运 
行 一 组 给 定 的 基准 程序 的 结果 如 下 : 











指令 类 型 指令 条 数 ( 百 万 ) 执行 每 条 指令 的 周期 数 

机 器 A 

算术 和 逻辑 运算 8 1 
取 数 和 存 数 4 3 
分 支 2 4 
其 他 4 3 
机 器 了 

算术 和 逻辑 运算 10 1 
取 数 和 存 数 8 2 
分 支 2 4 
其 他 3 








(a) 试 计算 每 台 机 器 的 有 效 CPI、MIPS 速率 以 及 执行 时 间 。 
(b) 评论 结果 。 

2.12 CISC 和 RISC 设计 的 早期 例子 分 别 是 VAX 11/780 和 IBM RS/600。 使 用 一 个 典型 的 基准 程序 ， 产 生 如 
下 的 机 器 特征 结果 : 










处 理 器 
VAX 11/780 
IBM RS/6000 


CPU 时 间 
12x 秒 
x BD 




















最 后 一 列 显示 VAX 需要 的 CPU 时 间 是 IBM 机 器 的 12 倍 。 
(a) 运行 在 这 两 台 机 器 上 的 基准 程序 的 机 器 代码 的 指令 条 数 的 关系 是 什么 ? 


(b) 这 两 台 机 器 的 CP7 各 是 多 少 ? 
2.13 在 三 台 计 算 机 上 运行 四 个 基准 程序 的 结果 如 下 : 



































上 表 显 示 以 秒 为 单位 在 各 台 机 器 上 运行 1 亿 条 指令 的 执行 时 间 ， 试 计算 每 台 计 算 机 运行 每 种 程序 的 
MIPS 值 。 假 设 这 4 个 程序 的 权重 相同 ， 试 计算 其 算术 平均 值 和 调和 平均 值 ， 并 按 算术 平均 值 和 调和 
平均 值 排列 该 三 台 计算 机 。 

2.14 下 表 中 的 数据 来 自 文献 【HEAT84] ， 显 示 在 三 台 机 器 上 运行 五 种 不 同 基 准 程序 的 执行 时 间 ， 以 秒 为 
单位 。 


2.15 


DT 
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Mb ERAS 
基准 程序 
R | M Z 
E 417 244 134 
F T 83 70 70 
H 66 153 | 135 
I 39 449 35 527 66 000 
K 772 368 369 











(a) 首先 ， 正 规 化 到 机 器 R， 计 算 每 台 计 算 机 运行 每 种 基准 程序 的 速度 度量 ， 也 就 是 说 ， 让 R 的 速度 
值 都 为 1.0， 将 机 器 R 作为 参照 系统 ， 使 用 公式 (2.5 ) 计算 其 他 机 器 的 速度 。 使 用 公式 (2.3 ) 计算 
每 个 系统 的 算术 平均 值 。 这 就 是 文献 [HEAT84] 采用 的 方法 。 

(b) 采用 机 器 M 作为 参照 系统 重 做 问题 (a) ， 这 个 计算 在 文献 [ HEAT84] 中 未 做 。 

(c) 基于 前 面 两 种 计算 之 一 ， 指 出 哪 一 台 机 器 是 最 慢 的 。 

(d) 使 用 几何 平均 值 的 计算 公式 (2.6) ， 重 做 问题 (a) 和 (b) 的 计算 ， 并 基于 这 两 种 计算 指出 哪 一 
台 机 器 是 最 慢 的 。 


为 了 分 清 前 面 问题 的 结果 ， 考 虑 一 个 更 简单 的 例子 。 
处 理 器 
基准 程序 























(a) 首先 将 X 作为 参照 机 器 ， 然 后 将 Y 作为 参照 机 器 ， 分 别 为 每 个 系统 计算 算术 平均 值 。 辩 论 直 观 
上 该 三 台 机 器 有 大 致 相等 的 性 能 以 及 算术 平均 值 给 出 了 误导 性 的 结果 。 

(b) 首先 将 X 作为 参照 机 器 ， 然 后 将 Y 作为 参照 机 器 ， 分 别 为 每 个 系统 计算 几何 平均 值 。 说 明 这 些 
结果 比 算术 平均 更 现实 。 

考虑 2.5 节 中 计算 平均 CPI 和 MIPS 速度 的 例子 ， 该 例子 得 到 的 结果 是 CPI =2.24 和 MIPS 速度 =178。 

现 假设 该 程序 可 以 以 8 个 并 行 的 任务 或 线程 的 方式 执行 ， 而 每 个 任务 的 指令 条 数 大 致 相等 。 该 程序 在 

一 个 8 核 的 系统 上 执行 ， 每 个 核 (处 理 器 ) 的 性 能 与 最 初 使 用 的 单 核 的 性 能 相同 。 各 部 分 之 间 的 协调 

和 同步 使 每 个 任务 增加 额外 的 25 000 条 指令 的 执行 。 假 设 每 个 任务 的 指令 混合 与 例子 中 相同 ， 但 由 于 

对 存储 器 的 竞争 ， 使 cache 失效 时 存储 器 访问 的 CPL 增 大 到 12 个 周期 。 

(a) 计算 平均 CPI。 

(b) 计算 相应 的 MIPS 速度 。 

(ec) 计算 加 速 比 因子 。 

(d) 将 实际 加 速 比 因子 与 由 阿 姆 达尔 定律 决定 的 理论 加 速 比 因子 进行 比较 。 

一 个 处 理 器 访问 主 存 的 平均 访问 时 间 为 7,。 一 个 容量 比较 小 的 cache 存储 器 插 在 处 理 器 与 主 存 之 间 。 

cache 的 访问 速度 比 主 存 快 很 多 ， 即 7, < 7,。 任 何 时 候 ，cache 保存 主 存 的 一 部 分 拷贝 ， 以 便 在 不 久 的 

将 来 CPU 最 可 能 访问 的 字 在 cache 中 。 假 设 处 理 器 访问 的 下 一 个 字 在 cache 中 的 可 能 性 为 #H， 即 命中 

ZH H, 

(a) 对 于 任何 单个 存储 器 访问 ， 在 cache 中 访问 该 字 与 在 主 存 中 访问 该 字 的 理论 加 速 比 是 多 少 ? 

(b) 假设 7 为 平均 访问 时 间 ， 将 7 表示 为 7 、7T, 和 五 的 函数 ， 总 加 速 比 与 五 的 函数 是 什么 ? 

(c) 实际 上 ， 系 统 被 设计 为 处 理 器 必须 首先 访问 cache， 并 决定 该 字 是 否 在 cache 中 ， 如 果 该 字 不 在 
cache 中 ， 然 后 才 访 问 主 存 。 因 此 ， 当 cache 访问 失效 (与 “命中 ”相反 ) 时 ， 存储器 的 访问 时 
AE T, +T, ET RAHA T., T, 和 五 的 函数 。 现 在 计算 其 加 速 比 ， 并 与 (b) 中 的 结果 进行 
比较 。 
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一 个 计算 机 系统 包括 处 理 器 、 存 储 器 、L/O 以 及 这 些 主要 部 件 之 间 的 互 连 。 除 了 处 理 器 以 外 
(处 理 器 十 分 复杂 ， 本 书 将 在 第 三 部 分 研究 它 ) ， 本 部 分 将 详细 考察 所 有 的 这 些 部 件 。 
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从 最 顶层 看 ， 计 算 机 由 处 理 器 、 存 储 器 和 I/O 部 件 组 成 。 系 统 的 功能 行为 由 这 些 主要 部 件 之 
间 的 数据 和 控制 信号 的 交换 所 构成 。 为 了 支持 这 种 交换 ， 这些 部 件 必 须 互 连 。 本 章 首先 介绍 计算 
机 部 件 及 其 输入 /输出 要 求 ， 然 后 考察 影响 互 连 设计 的 主要 问题 ， 尤 其 是 支持 中 断 的 需求 。 本 章 
大 部 分 篇 幅 用 于 讨论 最 普遍 的 互 连 方法 一 一 总 线 结构 的 使 用 。 

#48 cache 存储 器 

计算 机 的 存储 器 在 类 型 、 技 术 、 组 成 、 性 能 和 成 本 等 方面 的 范围 很 广泛 。 典 型 的 计算 机 系统 
都 配备 了 一 个 层次 化 的 存储 子 系统 ， 有 些 存储 器 是 内 部 的 〈 由 处 理 器 直接 存 取 ) ， 有 些 存储 器 是 
外 部 的 (处 理 器 通过 I/O 模块 来 存 取 )。 第 4 章 首先 概述 这 一 层次 体系 ， 然 后 详细 讨论 高 速 缓存 
的 设计 ， 包 括 分 立 的 代码 和 数据 cache 以 及 二 级 cache, 

第 5 章 内 部 存储 器 

主 存 系 统 设计 是 一 个 在 存储 容量 大 、 存 储 速 度 快 和 成 本 低 这 三 个 设计 要 求 之 间 相 互 竞争 、 
永 无 休止 的 过 程 。 随 着 存储 器 技术 的 发 展 ， 三 个 特征 的 每 一 个 都 在 改变 ， 故 设计 主 存 组 织 时 必须 
考虑 每 一 种 新 的 实现 。 第 5 章 关 注 内 部 存储 器 的 设计 问题 ， 首 先 考察 半导体 主 存 的 特性 和 组 成 ， 
然后 讨论 目前 先进 的 DRAM 存储 器 组 织 。 

第 6 章 外 部 存储 器 

为 了 得 到 比 主 存 更 大 的 存储 容量 和 更 持久 的 信息 存储 ， 需 要 有 外 部 存储 器 。 最 广泛 使 用 的 
外 部 存储 器 类 型 是 磁盘 。 第 6 章 首 先 介 绍 磁盘 技术 及 其 设计 方面 的 考虑 ， 然 后 考察 改善 磁盘 存储 
器 性 能 的 RAID 组 织 ， 最 后 考察 光盘 和 磁带 机 。 

第 7 章 输入 /输出 

与 处 理 器 、 主 存 互联 的 是 IO 模块 ， 每 个 IO 模块 都 控制 一 个 或 多 个 外 部 设备 。 第 7 章 介 绍 
VO 组 织 的 各 个 方面 。 在 如 何 满 足 性 能 需求 方面 ， 与 计算 机 设计 的 其 他 领域 相 比 ， 它 是 一 个 更 复 
杂 、 更 难 理解 的 领域 。 第 7 章 考察 如 何 使 用 程序 IO、 中 断 IO 和 直接 存储 器 存 取 (DMA) 这 三 
种 技术 来 实现 LO 模块 与 系统 其 余部 分 的 交互 ， 并 介绍 IO 模块 与 外 部 设备 之 间 的 接口 。 

第 8 章 操作 系统 支持 

详细 考察 操作 系统 超出 了 本 书 的 范围 。 然 而 ， 理 解 操作 系统 的 基本 功能 以 及 操作 系统 如 何 
开发 硬件 资源 以 提供 所 需 性 能 是 很 重要 的 。 第 8 章 描 述 操作 系统 的 基本 原理 ， 并 讨论 用 于 支持 操 
作 系 统 的 计算 机 硬件 的 专门 设计 特征 。 首 先 介 绍 操作 系统 简 史 ， 以 说 明 操作 系统 的 主要 类 型 及 
其 使 用 。 然 后 ， 通 过 长 项 和 短 项 调度 功能 的 考察 ， 来 说 明 多 道 程序 设计 。 最 后 考察 存储 器 管理 ， 
包括 对 分 段 、 分 页 和 虚拟 存储 器 的 讨论 。 
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本 章 要 点 


。 指令 周期 的 组 成 如 下 : 首先 取 指 令 ， 随 后 取 零 个 或 多 个 操作 数 ， 再 后 存 零 个 或 多 个 操作 
数 ， 最 后 是 中 断 检查 〈 若 中 断 允 许 ) 。 

。 计算 机 系统 的 主要 部 件 〈 处 理 器 、 主 存 、LO 模块 ) 为 了 交换 数据 和 控制 信号 ， 需 要 进 
行 互 连 。 最 流行 的 互 连 方式 是 使 用 多 条 线 组 成 的 共享 系统 总 线 。 在 当今 系统 中 ， 通 常 采 
用 层次 式 总 线 来 改善 性 能 。 

© 总 线 的 设计 要 素 包括 : 仲裁 ( 以 集中 式 或 分 布 式 控制 来 裁决 是 否 允 许 把 信号 发 送 到 总 线 
上 )、 时 序 (总 线 上 的 信号 是 与 中 央 时 钟 同 步 ， 还 是 基于 最 近 传 送 事 件 的 异步 传送 ) 和 
宽度 (地 址 线条 数 和 数据 线条 数 )。 

从 项 层 来 看 ,计算 机 包括 CPU (中 央 处 理 器 ) 、 存 储 器 和 LO 部 件 ， 每 种 类 型 有 一 个 或 多 个 
模块 。 这 些 部 件 以 某 种 方式 互相 连接 ， 实 现 计算 机 的 基本 功能 ， 即 执行 程序 。 因 此 ， 在 顶层 ,我 
们 可 以 通过 两 种 方法 来 描述 计算 机 系统 : (1) 描述 每 个 部 件 的 外 部 操作 ， 即 它 与 其 他 部 件 之 间 
交换 的 数据 和 控制 信号 。(2) 描述 互 连 结构 和 管理 互 连 结构 所 要 求 的 控制 。 

从 顶层 考察 结构 和 功能 的 重要 性 在 于 它 有 助 于 理解 计算 机 的 特性 ， 男 一 个 重要 性 在 于 它 可 


贷 、 选 择 其 他 替代 通路 、 了 解 因 部 件 失 效 而 导致 的 系统 故障 的 程度 ， 并 容易 提升 系统 的 性 能 。 在 
许多 情况 下 ， 只 有 通过 修改 设计 而 不 仅仅 是 提高 单个 部 件 的 速度 和 可 靠 性 ， 才 能 满足 对 更 大 的 
系统 功能 和 故障 安全 能 力 的 要 求 。 

本 章 重点 讨论 用 于 计算 机 部 件 互 连 的 基本 结构 。 作 为 背景 ， 本 章 首先 简要 考察 基本 部 件 及 
其 接口 要 求 ， 然 后 提供 功能 概述 ， 最 后 论述 如 何 使 用 总 线 来 连接 系统 部 件 。 


3.1 计算 机 的 部 件 

正如 第 2 章 所 述 ， 几 乎 所 有 的 当代 计算 机 设计 都 是 以 普林斯顿 高 级 研究 院 的 汉 “' 诺 伊 曼 提出 
的 概念 为 基础 。 这 种 设计 称 为 双 … 诺 伊 曼 结构 ， 它 基于 以 下 3 个 主要 概念 : 

。 数据 和 指令 存储 在 单一 的 “ 读 / 写 存储 器 ”中 。 

。 存储 器 的 内 容 通过 位 置 寻 址 ， 而 不 关心 存储 在 其 中 的 数据 类 型 。 

。 以 顺序 的 形式 从 一 条 指令 到 下 一 条 指令 的 〈 除 非 有 明确 的 修改 ) 执行 。 

形成 这 些 概念 的 原因 在 第 2 章 中 已 经 讨论 过 ,但 在 这 里 仍 值得 总 结 一 下 。 可 以 将 一 小 组 基本 
的 逻辑 部 件 以 各 种 方式 组 合 起 来 ， 用 以 存储 二 进 制 数据 和 完成 对 数据 的 算术 和 逻辑 操作 。 如 果 
要 执行 一 种 特定 的 计算 ， 需 要 构造 一 个 专门 用 于 特殊 计算 的 逻辑 单元 的 配置 。 将 各 种 元 件 连 接 
成 所 需 配置 的 过 程 ， 可 以 看 成 是 某 种 形式 的 编程 。 得 到 的 “程序 ”以 硬件 的 形式 存在 ， 并 被 称 
为 硬 布线 程序 。 

现在 考虑 男 一 种 方案 。 假 设 我 们 构造 一 个 具有 算术 和 人 逻辑 功能 的 通用 结构 。 这 组 硬件 将 根 
据 提 供给 它 的 控制 信号 ， 对 数据 执行 各 种 功能 。 在 原先 专用 化 硬件 的 情况 中 ， 系 统 接收 数据 并 生 
成 输出 (如 图 3-la 所 示 ) 。 而 对 于 通用 的 硬件 ， 系 统 接收 数据 和 控制 信号 并 生成 输出 。 因 此 ， 对 
于 每 个 新 程序 ， 程 序 员 只 需 提 供 一 个 新 的 控制 信号 集 ， 而 不 用 重新 连接 硬件 。 

如 何 提供 控制 信号 ? 答案 简单 又 微妙 。 整 个 程序 实际 上 由 许多 步骤 组 成 ， 对 某 些 数据 执行 某 
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各 算术 或 小 辑 操作 ， 每 一 步 都 需要 一 组 新 的 控制 信号 。 让 我 们 为 每 一 组 控制 信号 提供 一 个 唯一 
的 代码 ， 并 为 通用 硬件 增加 能 够 接收 代码 和 产生 控制 信号 的 部 分 (如 图 3-1b 所 示 ) 。 

现在 编程 容易 多 了 。 不 青 需要 为 每 个 新 的 程序 重新 连接 硬件 ， 所 需要 做 的 只 是 提供 新 的 代 
码 序列 。 事 实 上 ， 每 个 代码 就 是 一 条 指令 ， 而 硬件 的 一 部 分 翻译 每 条 指令 并 且 产 生 相应 的 控制 信 
号 。 为 了 区 分 这 一 新 的 编程 方法 ， 这 一 代码 或 指令 序列 被 称 为 软件 。 

图 3-1b 指出 了 系统 的 两 个 主要 部 件 :指令 解释 器 和 通 
用 算术 逻辑 功能 模块 。 这 两 部 分 组 成 了 CPU。 为 了 制造 能 
够 工作 的 计算 机 还 需要 其 他 几 个 部 件 。 数 据 和 指令 必须 能 
够 输入 系统 ， 为 此 ， 需 要 某 种 输入 模块 。 这 个 模 块 包含 几 
个 基本 部 件 ， 它 们 能 够 以 某 种 形式 接收 数据 和 指令 ， 并 将 
其 转换 成 系统 能 够 使 用 的 信号 的 内 部 形式 。 需 要 有 某 种 报 
告 结果 的 方法 ， 它 可 以 用 输出 模块 的 形式 实现 。 两 者 放 到 
一 起 ,被 称 为 1/O 部 件 。 

还 需要 另外 个 部 件 。 输 入 设备 顺序 地 输入 指令 和 数 Wa 
据 ， 但 一 个 程序 并 不 会 始终 顺序 地 执行 ， 它 可 能 跳 转 到 其 器 软件 编程 
他 地 方 ( 例 如 TAS 的 跳 转 指令 ) 。 类 似 地 ， 对 数据 的 操作 
可 能 要 求 不 只 是 以 一 种 预先 确定 的 序列 每 次 访问 一 个 单 | MOT R 
元 。 因 此 ， 必 须 有 一个 可 以 临时 存放 指令 和 数据 的 地 方 ， 这 个 模块 被 称 为 存储 器 或 主 存 ， 这 种 称 
呼 是 为 了 将 它 同 外 部 存储 器 或 外 部 设备 区 分 开 。 汉 . 诺 伊 曼 指出 ， 同 一 存储 器 既 可 以 存放 指令 
又 可 以 存放 数据 。 

图 3.2 表示 了 这 些 顶层 部 件 并 暗示 了 它们 之 间 的 相互 作用 。CPU 负责 与 存储 器 间 交换 数据 ， 
为 了 这 个 目的 ，CPU 一 般 使 用 两 个 内 部 的 寄存 器 : 一 个 是 存储 器 地 址 存储 器 ( MAR) ， 为 下 一 次 
读 或 写 指定 存储 器 的 地 址 ; 另 一 个 是 存储 器 缓冲 寄存 器 (MBR) ， 容 纳 写 到 内 存 或 从 内 存 接收 的 
数据 。 类 似 地 ，1/O 地 址 寄存 器 (1/0 AR) 指定 了 一 个 特定 的 VO 设备 ; 1/0 缓冲 寄存 器 (1/0 
BR) 用 于 IO 模块 与 CPU 之 间 的 数据 交换 。 








PC= 程序 计数 器 
IR= 指令 寄存 器 
MAR= 存储 器 地 址 寄存 器 
MBR= 存储 器 缓冲 寄存 器 
IO AR=V/O 地 址 寄存 器 
I/O BR=I/O 缓冲 寄存 器 


图 3-2 计算 机 部 件 : 顶层 视图 
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存储 器 模块 包含 一 组 单元 ， 由 连续 的 编号 来 定义 其 地 址 。 每 个 单元 都 含有 一 个 二 进 制 数 ， 它 
既 可 以 解释 为 指令 也 可 以 解释 为 数据 。LO 模块 将 数据 从 外 设 传送 到 CPU 或 存储 器 ， 反 之 亦 然 。 
LO 模块 包含 内 存 缓 冲 器 ， 用 来 暂时 存放 WO 数据 ， 直 到 它们 被 发 送出 去 。 

以 上 简单 介绍 了 这 些 部 件 ， 下 面 将 概述 这 些 部 件 如 何 共同 工作 来 执行 程序 的 。 


3.2 计算 机 的 功能 

计算 机 完成 的 基本 功能 是 执行 程序 ， 该 程序 由 存储 在 存储 器 中 的 一 串 指令 组 成 。 处 理 器 通 
过 执行 程序 中 指定 的 指令 来 完成 实际 的 工作 。 本 节 提 供 了 执行 程序 的 关键 元 素 的 概况 。 在 其 最 
简单 的 形式 中 ， 指 令 的 处 理由 两 个 步骤 组 成 : 处 理 器 从 存储 器 中 每 次 读 取 (fetch) 一 条 指令 ， 
然后 执行 每 条 指令 。 程 序 的 执行 便 是 重复 地 取 指 令 和 执行 指令 的 过 程 。 当 然 ， 根 据 指令 的 特点 ， 
指令 的 执行 可 能 包含 许多 步骤 〈 例 如 ， 图 2-4 的 下 半 部 ) 。 

一 条 指令 所 要 求 的 处 理 过 程 被 称 为 指令 周期 。 根 据 以 上 描述 的 两 个 简单 步骤 ， 图 3-3 描绘 了 
指令 周期 的 处 理 步 又 。 这 两 个 步骤 分 别 取 指 周期 执行 周期 
称 为 取 指 周期 和 执行 周期 。 只 有 当 关机 
或 某 种 不 可 恢复 的 错误 发 生 或 计算 机 遇 CHE) 7 
到 的 是 一 条 停机 指令 时 ， 程 序 的 执行 才 maneant a 
信 止 。 图 33 基本 指令 周期 
3.2.1 指令 的 读 取 和 执行 

在 每 个 指令 周期 的 开始 ， 处 理 器 都 从 存储 器 中 取 指 令 。 在 典型 的 处 理 器 中 ， 用 一 个 称 为 程序 
计数 器 (PC) 的 寄存 器 来 保存 下 一 条 将 要 读 取 指令 的 地 址 。 除 非特 别 说 明 ， 否 则 处 理 器 在 每 次 
取 指 令 之 后 总 是 将 PC 的 值 加 上 一 个 增 量 ， 以 便 将 来 顺序 地 读 取 下 一 条 指令 (也 就 是 位 于 下 一 个 
更 高 存储 器 地 址 中 的 指令 ) 。 举 例 来 说 ， 考 虑 一 台 计 算 机 ， 其 每 一 条 指令 占 住 存储 器 的 一 个 16 位 
的 字 单 元 。 现 假设 程序 计数 器 的 值 为 300， 则 处 理 器 下 一 次 将 读 取 300 单元 中 的 指令 ; 再 下 一 个 
指令 周期 ， 它 将 取 301 单元 中 的 指令 ， 接 着 是 302、303 等 。 正 如 刚才 所 解释 的 ， 这 一 顺序 允许 
有 所 改变 。 

读 取 的 指令 装 和 处理 器 中 的 指令 寄存 器 CR) 。 指 令 以 二 进 制 代码 的 形式 存在 ， 它 规定 了 处 
理 需 将 要 执行 的 动作 。 处 理 器 解释 这 条 指令 并 执行 所 要 求 的 操作 。 总 的 来 说 ， 这 些 操作 归 为 4 类 : 

© 处 理 器 -存储 器 : 数据 可 从 处 理 器 传送 到 存储 器 或 从 存储 器 传送 到 处 理 器 。 

o 处 理 器 -I/O: 通过 处 理 器 和 LO 模块 之 间 的 传输 ， 数 据 可 传送 到 或 来 自 外 部 设备 。 

© 数据 处 理 : 处 理 器 可 以 对 数据 执行 一 些 算术 或 逻辑 操作 。 

。 控制 : 指令 可 以 用 来 改变 执行 顺序 。 例 如 ， 处 理 器 可 能 从 149 单元 取得 一 条 指令 ， 而 这 

条 指令 指出 下 一 条 指令 取 自 182 单元 。 处 理 器 通过 将 程序 计数 器 设置 为 182 来 记录 这 一 
事实 。 这 样 ， 在 下 一 个 取 指 令 周 期 ， 指 令 将 取 自 182 单元 ， 而 不 是 150 单元 。 

当然 ， 一 条 指令 的 执行 可 能 包含 这 些 操作 的 组 合 。 

考虑 一 个 简单 的 例子 ， 使 用 一 台 包 含 图 3-4 所 列 特点 的 假想 机 器 ， 其 处 理 器 包含 唯一 的 一 个 
数据 寄存 器 ， 被 称 为 累加 器 (AC); 其 指令 和 数据 都 是 16 位 长 ， 这 样 便于 用 16 位 的 字 来 组 织 存 
储 器 ; 其 指令 格式 提供 4 位 的 操作 码 ， 表 示 最 多 可 以 有 2”= 16 种 不 同 的 操作 码 ， 最 多 有 2” = 
4096(4K) 个 字 的 存储 器 可 以 直接 寻 址 。 

图 3-5 举例 说 明 部 分 程序 的 执行 ， 显 示 了 存储 器 和 处 理 器 寄存 器 的 相关 部 分 ” 。 该 程序 段 将 











O 这 里 使 用 的 是 十 六 进 制 表示 法 ， 在 此 表示 法 中 ， 每 个 数字 代表 4 位 。 当 字 长 是 4 的 整数 倍 时 ， 它 是 表示 存储 器 和 
寄存 器 内 容 的 最 方便 的 表示 法 。 见 第 19 章 中 的 数字 系统 的 基本 复习 十进制、 二 进 制 和 十 六 进 制 ) 。 
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存储 器 中 地 址 940 的 内 容 与 地 址 941 的 内 容 相 加 ， 结 果 放 在 941 中 。 这 里 需要 3 条 指令 ， 它 们 可 


用 3 个 取 指 令 周期 和 3 个 执行 周期 来 表示 : 

(1) 程序 计数 器 (PC) 的 内 容 是 300, 
即 第 1 条 指令 的 地 址 。 这 条 指令 (其 值 为 十 
六 进 制 数 1940) 被 装 人 指令 寄存 器 及， 并 
且 PC 加 1。 注意 ,这 一 过 程 包含 对 存储 器 
地 址 寄存 器 (MAR) 和 存储 器 缓冲 寄存 器 
(MBR) 的 使 用 。 为 简便 起 见 ， 忽 略 了 这 些 
中 间 寄 存 器 。 

(2) IR 中 的 前 4 位 (第 1 个 十 六 进 制 
数字 ) 指出 要 装 人 累加 器 (AC), MER 
12 位 (3 个 十 六 进 制 数字 ) 指定 从 那个 地 
址 (940) 取 数 据 装 载 。 即 地 址 940 的 数据 
0003 装 人 AC, 


(3) 从 单元 301 中 取 下 一 条 指令 (5941), 


0 34 15 
a) 指令 格式 


0 1 15 





幅 值 _ 
b) 整数 格式 
程序 计数 器 (PC) = 指令 地 址 


指令 寄存 器 (IR) = 正在 执行 的 指令 
累加 器 (AC) = 临时 存储 


c) CPU 内 部 寄存 器 
0001= 由 存储 器 装 入 AC 


0010= 由 AC 存 至 存储 器 
0101= 由 存储 器 加 到 AC 


d) 操作 码 部 分 列表 
图 3-4 假想 机 特性 
并 且 PC 加 1。 


(4) AC 中 存放 的 内 容 和 941 单元 的 内 容 相 加 ， 结 果 放 入 AC. 








| 存储 器 CPU 寄存 器 


940[0 0 03 
94ı [0 0 0 2| 










存储 器 CPU 寄存 器 








94010 0 0 3 
%4 [0 0 0 2 
BRS 


sofi 9 4 0h [3 0 0] PC 
301|5 9 4 1 be |AC 
3022 9 4 i| ‘+{1_ 9 4 0] IR 


R 


sofi 940) oree |: 
301/59 4 1 10 0 0 3] Ac} 3 
302/29 4 1 5 9 4 I{IR |: 










存储 器 CPU 寄存 器 


soft 940] 已 olePc 

301[5 9 4 1] 0 0 0 3) ac 

302[2 9 41) | [1.9 4 O}IR 
> | 








图 3-5 程序 执行 的 例子 (存储 器 和 寄存 器 的 内 容 以 十 六 进 制 表示 ) 


(5) 从 单元 302 中 取 下 一 条 指令 (2941) 
(6) 将 AC 的 内 容 存 人 941 单元 。 


， 并 且 PC 加 1。 


在 这 个 例子 中 ,将 940 单元 的 内 容 加 到 941 单元 用 了 3 个 指令 周期 ， 每 个 指令 周期 都 包含 了 
一 个 取 指 周期 和 一 个 执行 周期 。 如 果 用 更 复杂 的 指令 集 ， 则 需要 更 少 的 周期 。 例 如 ， 一 些 较 老 的 
处 理 器 包含 具有 多 个 存储 器 地 址 的 指令 ， 因 此 ， 这 类 处 理 器 中 的 特殊 指令 在 执行 周期 可 以 多 次 
访问 存储 器 。 而 且 ， 指 令 可 能 不 用 访问 存储 器 ， 而 是 指定 一 个 WO 操作 。 
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例如 ，PDP-11 处 理 器 包含 一 条 指令 ， 其 符号 表示 为 “ADD B, A”, CHIAJ A M B 
相 加 ， 然 后 将 和 存 入 单元 A 中 。 这 一 个 指令 周期 由 下 列 几 步 组 成 : 

e WADD 指令 。 

o 将 存储 单元 A 的 内 容 读 人 处理 器 。 

e 将 存储 单元 B 的 内 容 读 人 处 理 器 。 为 了 使 A 的 内 容 不 丢失 ， 处 理 器 必须 至 少 有 两 个 寄存 

器 ， 而 不 是 一 个 单一 的 累加 器 来 存放 存储 器 的 值 。 

。 将 两 个 值 相 加 。 

。 将 结果 从 处 理 器 写 人 内 存单 元 A 中 。 

因此 ， 某 个 特定 指令 的 执行 周期 可 能 包含 对 存储 器 的 多 次 访问 。 而 且 ， 除 访问 存储 器 以 外 ， 
一 条 指令 可 能 指定 一 次 VO 操作 。 考 虑 到 这 个 附加 的 因素 ， 图 3-6 对 图 3-3 的 基本 指令 周期 提供 
了 更 详细 的 考虑 ， 它 以 状态 图 的 形式 显示 。 对 于 任意 给 定 的 指令 周期 ， 有些 状态 可 能 为 空 ， 而 另 
一 些 可 能 出 现 多 次 。 这 些 状 态 的 描述 如 下 所 示 : 

。 指令 地 址 计算 (iac): 决定 下 一 条 将 要 执行 的 指令 的 地 址 。 通 常 是 将 一 个 固定 的 值 与 前 
一 条 指令 的 地 址 相 加 。 例 如 ， 如 果 每 条 指令 有 16 位 长 ， 并 且 存 储 器 是 由 16 位 字 构 成 的 ， 
则 将 原 地 址 加 1; 如 果 存 储 器 是 由 可 独立 寻 址 的 8 位 字 节 构成 的 ， 则 将 原 地 址 加 2。 
读 取 指令 (if) : 将 指令 从 存储 器 单元 读 到 处 理 器 中 。 
© 指令 操作 译 码 (iod): 分 析 指 令 ， 以 决定 将 执行 何 种 操作 以 及 将 使 用 的 操作 数 。 
操作 数 地 址 计算 (oac): 如 果 该 操作 包含 对 存储 器 或 通过 LO 的 操作 数 访问 ， 那 么 决定 
操作 数 的 地 址 。 
取 操 作 数 (of): 从 存储 器 或 从 IO 中 读 取 操作 数 。 
数据 操作 (do) : 完成 指令 需要 的 操作 。 

© 存储 操作 数 (0s): 将 结果 写 人 存储 器 或 输出 到 IO。 

图 3-6 上 半 部 分 的 状态 图 包含 处 理 器 
与 存储 器 或 VO 模块 的 数据 交换 。 图 3-6 
下 半 部 分 的 状态 图 仅 涉 及 处 理 器 内 部 的 操 
作 。oac 状态 出 现 了 两 次 ， 这 是 因为 指令 
包含 了 读 、 写 或 两 者 兼 而 有 之 。 但 在 两 种 
情况 中 该 状态 所 完成 的 操作 基本 相同 ， 因 
此 只 需要 一 个 状态 标识 。 

还 请 注意 ， 图 3-6 允许 多 个 操作 数 和 
多 个 结果 ， 因 为 有 些 指令 和 有 些 机 器 要 求 
这 样 。 例 如 ，PDP-11 的 “ADD A,B” 指 图 3-6 指令 周期 状态 图 
令 导 致 以 下 的 状态 序列 : ica, if, iod, 
oac, of, oac, of, do, oac 和 os, 

最 后 ， 在 某 些 机 器 中 ， 单 条 指令 可 以 指定 对 向 量 (一 维 数组 ) 数据 或 字符 串 (一 维 数组 ) 
执行 操作 。 如 图 3-6 所 示 ， 它 将 重复 取 操 作 数 和 (R) 存储 操作 数 。 


3.2.2. 中断 


几乎 所 有 的 计算 机 都 提供 一 种 机 制 ， 其 他 模块 (1/0 或 存储 器 ) 通过 此 机 制 可 以 中 断 处 理 器 
的 正常 处 理 。 表 3-1 列 出 了 最 常见 的 中 断 类 型 。 这 些 中 断 的 特点 将 在 本 书 的 后 半 部 分 ， 特 别 是 在 
第 7 章 和 第 12 章 中 予以 讨论 。 但 是 为 了 更 清楚 地 理解 指令 周期 的 特性 和 中 断 对 互 连 结构 的 影响 ， 
有 必要 在 此 介绍 这 个 概念 。 读 者 在 本 阶段 不 用 关心 中 断 的 产生 和 处 理 等 细节 ， 只 需 专注 由 中 断 
引起 的 模块 之 间 的 通信 。 
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表 3-1 中 断 的 分 类 
一 一 
中 断 类 型 产生 的 原因 





由 指令 执行 结果 伴随 而 出 现 的 某 些 条 件 所 产生 。 例 如 ， 算 术 溢出 、 除 以 零 、 企 图 执行 一 些 
非法 的 机 器 指令 或 访问 的 地 址 超出 了 用 户 存储 器 空间 














定时 器 由 处 理 器 中 的 定时 器 产生 ， 它 允许 操作 系统 以 规整 的 时 间 间 隔 执行 特定 的 功能 
IO 由 了 VO 控制 器 产生 ， 以 通知 操作 的 正常 完成 或 各 种 出 错 情况 
硬件 故障 由 电源 故障 或 存储 器 奇偶 校 验 出 错 这 类 的 故障 产生 


提供 中 断 主 要 是 为 了 提高 处 理 的 效率 。 例 如 ， 大 部 分 外 设 比 处 理 器 慢 很 多 。 假 如 处 理 器 使 用 
如 图 3-3 所 示 的 指令 周期 的 方法 将 数据 传送 给 打印 机 ， 在 每 次 写 操作 之 后 ， 处 理 器 都 会 暂停 并 处 
于 空闲 状态 ， 直 到 打印 机 跟 上 进度 。 暂 停 的 时 间 可 能 有 几 百 个 甚至 上 千 个 指令 周期 ， 这 还 不 包括 
存储 器 。 显 然 ， 这 是 处 理 器 使 用 上 的 巨大 浪费 。 

图 3-7a 说 明了 事件 的 这 种 状态 。 用 户 程序 执行 一 系列 WRITE 调用 ，WRITE 调用 与 处 理 过 程 
交错 进行 。 代 码 段 1、2、3 是 指 不 包含 IO 操作 的 指令 序列 。WRITE 调用 是 对 一 段 IO 程序 的 调 
用 ， 它 是 执行 实际 VO 操作 的 系统 实用 程序 。 这 段 VO 程序 包含 以 下 三 个 部 分 : 

。 用 于 为 实际 IO 操作 准备 的 指令 序列 ， 在 图 中 标记 为 4。 它 可 能 包括 将 待 输出 数据 复制 到 

专用 的 缓冲 区 ， 以 及 为 设备 命令 准备 参数 。 





b) 中 断 : 短 1/O 等 待 c) 中 断 : 长 IO 等 待 


图 3-7 有 中 断 和 无 中 断 的 程序 控制 流 


。 实际 的 VO 命令 。 如 果 没 有 中 断 的 使 用 ， 一 旦 此 命令 发 出 ， 程 序 必 须 等 待 VO 设备 完成 
需要 的 功能 (或 周期 性 地 测试 设备 ) 。 程 序 可 以 通过 简单 地 重复 执行 一 个 测试 操作 来 决 
E VO 操作 是 否 完 成 。 

。 完成 该 操作 的 指令 序列 ， 在 图 中 标记 为 5。 这 可 能 包含 设置 标志 位 来 表示 操作 是 成 功 还 是 
失败 。 

因为 VO 操作 可 能 需要 花 较 长 的 时 间 才 能 完成 ， 所 以 WO 程序 挂 起 ， 等 待 操作 完成 TE, 

用 户 程序 在 WRITE 调用 这 一 点 暂停 很 长 一 段 时 间 。 
1. 中 断 和 指令 周期 
有 了 中 断 ， 处 理 器 就 可 以 在 O 操作 进行 的 时 候 执行 其 他 指令 。 考 虑 如 图 3-7b 所 示 的 控制 
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流 。 与 前 面相 同 ， 用 户 程序 到 达 一 点 ， 以 WRITE 调用 的 形式 进行 系统 调用 。 此 时 ， 被 调用 的 0 
程序 仅仅 由 准备 代码 和 实际 的 VO 命令 组 成 。 当 这 几 条 指令 执行 后 ， 控 制 权 返回 给 用 户 程序 。 同 
时 外 部 设备 忙于 从 计算 机 存储 器 中 接收 数据 并 打印 。 这 次 VO 操作 与 用 户 程序 中 的 指令 执行 同时 
进行 。 

当 外 部 设备 准备 好 接收 服务 ， 即 当 它 准备 从 处 理 器 中 接受 更 多 的 数据 时 ， 外 部 设备 的 0 模 
块 发 送 中 断 请 求 信号 给 处 理 器 。 处 理 器 通过 挂 起 当前 程序 的 操作 ， 跳 转 服务 于 某 个 特定 VO 设备 
的 程序 来 响应 ， 这 个 程序 被 称 为 中 断 处 理 程序 ， 并 且 在 设备 服务 完 后 恢复 原来 的 执行 。 中 断 发 生 
的 断 点 在 图 3-7a 中 用 星 号 ( * ) 表示 。 

从 用 户 程序 的 角度 来 看 ， 中 断 只 是 打 断 正常 的 执行 序列 。 当 中 断 处 理 完成 之 后 ， 恢 复 执行 原 
来 的 序列 〈 如 图 3-8 所 示 ) 。 因 此 ， 用 户 程序 不 必 为 用 户 程序 中 断 处 理 程序 
适应 中 断 而 提供 任何 特殊 代码 。 处 理 器 和 操作 系统 
负责 用 户 程序 挂 起 和 在 中 断 点 处 恢复 等 操作 。 

为 适应 中 断 ， 将 中 断 周期 加 入 指令 周期 中 ， 如 
图 3-9 所 示 。 在 中 断 周期 中 ， 处 理 器 检查 是 否 发 生 了 
PR, BOREAL HP UTTAR ES AY tH BAH zB. WRR Aa a 
有 中 断 请 求 ， 则 处 理 器 继续 进入 取 指 周期 ， 读 取 当 
前 程序 的 下 一 条 指令 。 如 果 出 现 中 断 请 求 ， 则 处 理 
器 执行 以 下 操作 : is 

。 挂 起 当前 正在 执行 的 程序 ， 并 保存 其 状态 。 图 3-8 发生 中 断 时 的 控制 转换 

这 意味 着 保存 下 一 条 即将 执行 的 指令 的 地 址 
(程序 计数 器 PC 的 当前 内 容 ) 以 及 任何 与 处 理 器 当前 活动 相关 的 数据 。 
。 将 程序 计数 器 设置 为 中 断 处 理 程序 的 起 始 地 址 。 


取 指 周期 执行 周期 中 断 周 期 








N 














图 3-9 有 中 断 的 指令 周期 


处 理 器 现在 进入 取 指 周期 ， 并 读 取 服 务 于 该 中 断 的 中 断 处 理 程序 的 第 1 条 指令 。 中 断 处 理 程 
序 一 般 是 操作 系统 的 一 部 分 。 通 常 中 断 处 理 程序 判定 中 断 的 性 质 并 且 完 成 所 需要 的 任何 操作 。 
在 我 们 已 经 使 用 过 的 例子 中 ， 中 断 处 理 程序 判断 是 哪个 O 模块 产生 了 中 断 ， 然 后 跳 转 到 向 1/0 
模块 写 数据 的 程序 。 中 断 处 理 程序 结束 后 ， 处 理 器 能 够 在 断 点 处 恢复 用 户 程序 的 执行 。 

显然 ， 这 一 处 理 增 加 了 系统 的 开销 。 必 须 执 行 额外 的 指令 〈 在 中 断 处 理 程序 中 ) 来 判断 中 
上 断 的 性 质 并 决定 相应 的 操作 。 然 而 ， 由 于 简单 地 等 待 Y0 操作 要 浪费 大 量 的 时 间 ， 因 此 中 断 的 使 
用 能 使 处 理 器 更 有 效 地 运行 。 

为 了 评价 获得 的 效率 增益 ， 考 虑 图 3-10， 它 是 基于 图 3-7a 和 图 3-7b 控制 流 的 时 序 简 图 。 图 
3-7b 和 图 3-10 假设 VO 操作 所 需 的 时 间 较 短 : 比 完成 用 户 程序 中 写 操作 之 间 的 指令 执行 时 间 要 
短 。 更 典型 的 情况 ， 对 于 打印 机 之 类 的 慢 速 设 备 ，LO 操作 的 时 间 要 比 执行 一 系列 用 户 指令 的 时 
间 长 很 多 ,图 3-7c 给 出 了 这 种 事件 的 状况 。 在 这 种 情况 下 ， 用 户 程 序 在 第 1 次 WRITE 调用 产生 
的 VO 操作 完成 之 前 ， 就 面临 第 2 次 WRITE 调用 ， 结 果 是 用 户 程序 在 这 一 点 挂 起 。 当 前 一 个 IO 
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操作 完成 之 后 ， 才 可 能 处 理 新 的 WRITE 调用 ， 启 动 新 的 VO 操作 。 图 3-11 显示 了 这 种 情况 下 使 
用 中 断 和 未 使 用 中 断 的 时 序 。 无 论 从 哪 种 情况 都 可 以 看 出 ， 效 率 得 到 了 提高 ， 因 为 部 分 VO 操作 
的 时 间 与 用 户 指令 执行 的 时 间 相 重 合 。 


时 间 时 间 
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图 3-12 显示 了 修改 后 包含 中 断 周 期 处 理 的 指令 周期 状态 图 。 


”图 3-12 有 中 断 的 指令 周期 状态 图 


2. 多 重 中 断 

迄今 为 止 ， 只 讨论 了 发 生 单个 中 断 的 情形 。 但 是 实际 的 情况 是 可 能 产生 多 个 中 断 。 例 如 ， 一 
个 程序 可 以 从 通信 线路 接收 数据 和 打印 结果 。 打 印 机 每 完成 一 次 打印 操作 便 会 产生 一 次 中 断 。 
每 次 到 达 一 个 单元 的 数据 ， 通 信 线 路 控制 器 将 产生 一 次 中 断 。 根 据 通信 规程 ， 一 个 单元 可 以 是 一 
个 字符 ， 也 可 以 是 一 个 数据 块 。 任 何 情况 下 ， 在 打印 机 中 断 处 理 时 都 可 能 再 发 生 通 信 中 断 。 

处 理 多 重 中 断 有 两 种 方法 。 第 1 种 是 在 中 断 处 理 过 程 中 禁止 其 他 中 断 。 禁 止 中 断 仅 仅 意味 着 
处 理 器 可 以 并 且 将 忽略 中 断 请 求 信 号 。 如 果 中 断 在 此 时 发 生 ， 一 般 会 保持 在 “未 决 状 态 ” ， 在 处 
理 器 允许 中 断后 就 会 检测 到 这 种 未 决 状态 。 于 是 ， 当 用 户 程序 执行 时 如 果 有 一 个 中 断 发 生 ， 则 该 


50 - 第 二 部 分 计算 机 系统 


中 断 会 立即 被 禁止 。 在 中 断 处 理 程序 完成 后 ， 不 用 等 到 用 户 程序 恢复 就 可 以 再 次 允许 中 断 ， 这 时 
候 处 理 器 检查 是 否 发 生 了 其 他 中 断 。 这 种 方法 既 简 单 又 有 效 ， 因 为 中 断 严格 按 顺序 处 理 (如 
图 3-13a 所 示 ) o 
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b) Eh BAL BE 
图 3-13 带 多 重 中 断 的 控制 转换 


上 面 这 种 方法 的 缺点 是 没有 考虑 到 相对 的 优先 级 和 时 间 紧 迫 的 需要 。 例 如 ， 当 输入 数据 从 
通信 线路 到 达 时 ， 需 要 被 迅速 接收 ， 以 便 给 更 多 的 输入 腾 出 空间 。 如 果 第 2 批 数据 到 达 之 前 第 1 
批 数据 还 没有 处 理 ， 就 可 能 丢失 数据 。 

第 2 种 方法 是 定义 中 断 的 优先 级 ， 且 允许 优先 级 高 的 中 断 引起 低级 中 断 处 理 程序 本 身 被 中 断 
(如 图 3-13b 所 示 ) 。 作 为 第 2 种 方法 的 例子 ， 考 虑 一 个 有 3 个 IO 设备 的 系统 : 打印 机 、 硬 盘 和 
通信 线路 ， 它 们 的 优先 级 逐个 递增 ， 分 别 是 2、4、5。 基 于 文献 [TANE97] 中 的 例子 ， 图 3-14 
举 出 了 一 个 可 能 的 序列 。 用 户 程序 开始 于 :=0 时 刻 。 当 :=10 时 ， 发 生 了 打印 机 中 断 ， 用 户 信息 
放 和 人 系统 栈 ， 并 继续 从 打印 机 的 中 断 服务 程序 (ISR) 开始 执行 。 当 程序 仍 在 执行 时 ， 在 上 = 15 
时 刻 ， 通 信 中 断 发 生 。 由 于 通信 线 的 优先 级 比 打 印 机 高 ， 这 个 中 断 得 到 响应 。 打 印 机 ISR 被 中 
断 ， 它 的 状态 压 和 人 栈 ， 继 续 从 通信 ISR 执行 。 当 这 个 通信 ISR 正在 执行 时 ， 发 生 了 磁盘 中 断 
(t=20)。 由 于 它 的 优先 级 相对 较 低 ， 只 好 挂 起 ， 而 通信 ISR 运行 到 结束 。 
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当 通 信 ISR 完成 时 (t=25) ， 原 来 的 处 理 器 的 状态 恢复 ， 即 执行 原来 的 打印 机 ISR。 但 是 在 
这 一 例 程 中 的 一 条 指令 都 没有 来 得 及 执行 以 前 ， 处 理 器 响应 优先 级 更 高 的 磁盘 中 断 ， 将 控制 权 
传送 给 磁盘 ISR。 仅 当 这 一 例 程 结束 后 (上 =35) ， 打 印 机 的 ISR 才 恢 复 。 在 它 完 成 后 〈: =40 ) ， 
控制 权 才 最 终 交 还 给 用 户 程序 。 


用 户 程序 打印 机 ISR 通信 ISR 






| 
e 


III 


LR ECE 


图 3-14 多 重 中 断 的 时 序 示例 


3.2.3 1/O 功能 


至 此 ， 我 们 已 经 讨论 了 由 处 理 器 控制 的 计算 机 操作 ， 而 且 主 要 考察 了 处 理 器 和 存储 器 的 交 
互 操作 。 前 面 的 讨论 只 提 到 了 LO 部 件 的 作用 ， 这 一 作用 将 在 第 7 章 中 详细 讨论 ， 但 这 里 有 必要 
给 出 一 个 简单 的 介绍 。 

LO 模块 〈 例 如 磁盘 控制 器 ) 能 直接 与 处 理 器 交换 数据 。 如 同 处 理 器 通过 指定 某 个 单元 地 址 
就 可 以 启动 一 次 对 存储 器 的 读 / 写 一 样 ， 处 理 器 同样 也 能 把 数据 写 到 LO 模块 或 从 O 模块 中 读 
出 。 在 后 一 种 情况 中 ， 处 理 器 识别 由 特定 VO 模块 控制 的 特定 设备 。 因 此 ， 会 发 生 与 图 3-5 中 形 
式 相似 的 指令 序列 ， 只 不 过 它们 是 V0 指令 ， 而 不 是 存储 器 访问 指令 。 

在 某 些 情况 下 ， 需 要 允许 V/O 直接 与 存储 器 交换 数据 。 在 这 种 情况 中 ， 处 理 器 授予 O 模块 
读 或 写 存储 器 的 权利 ， 以 便 NO 和 存储 器 的 传输 不 需要 CPU 的 介入 。 在 这 种 传输 中 ，L/O 模块 向 
存储 器 发 出 读 或 写 的 命令 ， 解 脱 了 处 理 器 负责 数据 交换 的 责任 。 这 种 操作 称 为 直接 存储 器 访问 
(DMA), 将 在 第 7 章 中 详细 论述 。 


3.3 HEHH 


计算 机 包含 一 组 部 件 或 3 种 基本 类 型 的 模块 (处理 器 、 存 储 器 和 1/0) ， 模 块 之 间 相 互通 信 。 
实际 上 ,计算 机 是 一 个 基本 模块 的 网 络 ， 因 此 必须 有 连接 这 些 模块 的 通路 。 

连接 各 种 模块 的 通路 的 集合 称 为 互 连 结构 (interconnection structure) 。 这 种 结构 的 设计 将 取 
决 于 模块 之 间 所 必须 进行 的 交换 。 

图 3-15 通过 指出 每 种 模块 类 型 的 主要 输入 、 输 出 形式 给 出 了 所 需 的 信息 交换 的 种 类 ?: 

。 存储 器 : 通常 ， 存 储 器 模块 由 N 个 等 长 的 字 组 成 ， 每 个 字 分 配 了 一 个 唯一 的 数值 地 址 (0、 





@ 图 中 ， 宽 箭头 代表 多 根 信号 线 ， 它 们 并 行 地 携带 信息 的 多 位 。 每 个 窗 箭 头 代 表单 个 信号 线 。 
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1、…、N-1) ， 数 据 字 可 以 从 存储 器 中 读 出 或 写 进 存储 器 。 操 作 的 性 质 由 读 和 写 控制 信 
号 指示 ， 操 作 的 单元 由 地 址 指定 。 读 
e MO 模块; 从 〈 计 算 机 系统 ) 内 部 的 观点 看 ，LO 在 功 
能 上 与 存储 器 相似 ， 它 们 都 有 读 和 写 两 类 操作 。 此 外 ， 
一 个 VO 模块 可 以 控制 多 个 外 设 。 我 们 可 以 定义 每 个 与 
外 部 设备 的 接口 为 端口 (port) ， 给 它 分 配 一 个 唯一 的 
地 址 (例如 ,，0、1、…、M-1)。 此 外 ， 还 有 向 外 部 设 
备 输 入 和 输出 数据 的 外 部 数据 路 径 。 最 后 ，LO 模块 可 
以 给 处 理 器 发 送 中 断 信和 号 。 
处 理 器 : 处 理 器 读 入 指令 和 数据 ， 并 在 处 理 之 后 写 出 数 
据 ， 它 还 用 控制 信号 控制 整个 系统 的 操作 。 也 可 以 接收 
中 断 信和 号。 
前 面 所 列 定 义 了 要 交换 的 数据 。 互 连结 构 必 须 支 持 下 列 类 
型 的 传送 : 
e 存储 器 到 处 理 器 : 处 理 器 从 存储 器 中 读 一 条 指令 或 一 个 
单元 的 数据 。 
o 处 理 器 到 存储 器 : 处 理 器 向 存储 器 写 一 个 单元 的 数据 。 
e MO 到 处 理 器 : 处 理 器 通过 IO 模块 从 IO 设备 中 读 
数据 。 图 3-15 计算 机 模型 
e 处 理 器 到 I/O; 处 理 器 向 IO 设备 发 送 数据 。 
© /O 与 存储 器 之 间 : 对 于 这 两 种 情况 VO 模块 允许 与 存储 器 直接 交换 数据 ， 使 用 直接 存 
储 器 存储 (DMA), fil Aimee ADHERE o 
多 年 来 ， 人 们 尝试 过 各 种 各 样 的 互 连 结构 ， 迄 今 为 止 最 普遍 的 是 总 线 和 各 种 多 总 线 结构 。 本 
章 后 续 部 分 将 专门 讨论 总 线 结构 。 


3.4 BRAS 

总 线 (bus) 是 连接 两 个 或 多 个 设备 的 通信 通路 。 总 线 的 关键 特征 是 共享 传输 介质 。 多 个 设 
备 连 接 到 总 线 上 ， 并 且 任 何 一 个 设备 发 出 的 信号 可 以 被 其 他 所 有 连接 到 总 线 上 的 设备 所 接收 。 
如 果 两 个 设备 同时 发 送 ， 它们 的 信号 将 会 重 释 ， 这 样 会 引起 混淆 。 因 此 ， 每 次 只 能 有 一 个 设备 能 
够 成 功 地 利用 总 线 发 送 数据 。 

通常 ， 总 线 由 多 条 通信 路 径 或 线路 组 成 ， 每 条 线 能 够 传送 代表 二 进 制 1 和 0 的 信号 。 一 段 时 
间 里 ， 一 条 线 能 传送 一 串 二 进 制 数字 。 总 线 的 几 条 线 放 在 一 起 ， 就 能 够 用 来 同时 (并行 地 ) 传 
送 二 进 制 数字 。 例 如 ， 一 个 8 位 的 数据 能 通过 总 线 中 的 8 条 线 传送 。 

计算 机 系统 含有 多 种 总 线 ， 它 们 在 计算 机 系统 的 各 个 层次 提供 部 件 之 间 的 通路 。 连 接 计算 
机 的 主要 部 件 (处 理 器 、 存 储 器 、I/0) 的 总 线 称 为 系统 总 线 。 最 常见 的 计算 机 互 连 结构 是 基于 
一 个 或 多 个 系统 总 线 的 使 用 。 








3.4.1 总 线 结构 


系统 总 线 通常 包含 50 到 上 百 条 分 立 的 导线 ， 每 条 导线 被 赋予 一 个 特定 的 含义 或 功能 。 虽 然 
总 线 的 设计 有 多 种 ， 但 任何 总 线 的 线路 都 可 以 分 成 如 下 3 个 功能 组 (如 图 3-16 所 示 ) : 数据 线 、 
地 址 线 和 控制 线 。 此 外 ， 还 有 为 连接 的 模块 提供 电源 的 电源 馈线 。 

数据 线 提供 系统 模块 间 传送 数据 的 路 径 ， 这 些 线 组 合 在 一 起 称 为 数据 总 线 。 典 型 的 数据 总 
线 包含 32、64 、128 或 更 多 的 分 离 导 线 ， 这 些 线 的 数目 称 为 数据 总 线 的 宽度 。 因 为 每 条 线 每 次 能 
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图 3-16 总线 互 连 策略 


传送 1 位， 所 以 线 的 数目 决定 了 每 次 能 同时 传送 多 少 位 ， 数 据 总 线 宽度 是 决定 系统 总 体 性 能 的 关 
键 因素 。 例 如 ， 如 果 数 据 总 线 为 32 位 宽 ， 而 每 条 指令 64 位 长 ， 那 么 处 理 器 在 每 个 指令 周期 必须 
访问 存储 器 模块 两 次 。 

地 址 线 用 于 指定 数据 总 线 上 数据 的 来 源 或 去 向 。 例 如 ， 如 果 处 理 器 希望 从 存储 器 中 读 取 一 
个 字 (8 位 、16 位 或 32 W), 它 将 所 需要 的 字 的 地 址 放 在 地 址 线 上 。 显 然 ， 地址 总 线 的 宽度 决 
定 了 系统 能 够 使 用 的 最 大 的 存储 器 容量 。 而 且 ， 地 址 线 通常 也 用 于 VO 端口 的 寻 址 。 通 常 ， 地 址 
线 的 高 位 用 于 选择 总 线 上 指定 的 模块 ， 低 位 用 于 选择 模块 内 具体 的 存储 器 单元 或 IO 端口 。 例 
如 ， 在 一 个 8 位 地 址 总 线 上 ， 小 于 等 于 01111111 的 地 址 可 以 用 来 访问 有 128 个 字 的 存储 器 模块 
(模块 0) ， 而 大 于 等 于 10000000 的 地 址 可 用 来 访问 接 在 VO 模块 上 的 设备 (模块 1 )。 

控制 线 用 来 控制 对 数据 线 和 地 址 线 的 存 取 和 使 用 。 由 于 数据 线 和 地 址 线 被 所 有 模块 共享 ， 
因此 必须 用 一 种 方法 来 控制 它们 的 使 用 。 控 制 信号 在 系统 模块 之 间 发 送 命令 和 时 序 信 号 。 时 序 
信和 号 指定 了 数据 和 地 址 信号 的 有 效 性 ， 命 令 信 和 号 指定 了 要 执行 的 操作 。 典 型 的 控制 信号 如 下 
所 列 : 

© 存储 器 写 (Memory Write): 引起 总 线 上 的 数据 写 入 被 寻 址 的 单元 。 

© 存储 器 读 (Memory Read); 使 所 寻 址 单元 的 数据 放 到 总 线 上 。 

e V/O (VO Write): 引起 总 线 上 的 数据 输出 到 被 寻 址 的 IO 端口 。 
MO 读 (1/0 Read): 使 被 寻 址 的 O 端口 的 数据 放 到 总 线 上 。 
传输 响应 (Transfer ACK); 表示 数据 已 经 从 总 线 上 接收 ， 或 已 经 将 数据 放 到 总 线 上 。 
总 线 请 求 (Bus Request): 表示 模块 需要 获得 对 总 线 的 控制 。 
BARA (Bus Grant): 表示 发 出 请 求 的 模块 已 经 被 允许 控制 总 线 。 
PRT (Interrupt Request); 表示 某 个 中 断 正在 悬而未决 。 
中 断 响 应 (Interrupt ACK) : 未 决 的 中 断 请 求 被 响应 。 

e 时 钟 (Clock): 用 于 同步 操作 。 总 线 

o Siu (Reset): 初始 化 所 有 模块 。 

总 线 的 操作 如 下 ， 如 果 一 个 模块 希望 向 另 一 个 模块 发 送 数 
据 ， 它 必须 做 两 件 事 情 : (1) 获得 总 线 的 使 用 权 ; (2) 通过 总 
线 传 送 数据 。 如 果 一 个 模块 希望 向 另 一 个 模块 请 求 数据 ， 它 也 
必须 做 两 件 事情 : (1) 获得 总 线 的 使 用 权 ; (2) 通过 适当 的 地 
址 线 和 控制 线 向 另 一 模块 发 送 请 求 ， 然 后 它 必 须 等 待 另 一 模块 
发 送 数据 。 

从 物理 上 讲 ， 系 统 总 线 实际 上 是 多 条 平行 的 电导 线 。 这 些 


导线 是 在 卡 或 板 〈 印 刷 电路 板 ) 上 刻 出 来 的 金属 线 。 总 线 延 伸 


至 所 有 系统 部 件 ， 每 一 个 系统 部 件 都 连接 到 总 线 的 全 部 或 部 分 


线 。 图 3-17 描绘 了 其 典型 的 物理 布置 。 在 这 个 例子 中 ， 总 线 由 图 3-17 “总线 结构 的 典型 
两 组 垂直 的 导体 组 成 ， 沿 着 导体 每 隔 一 段 就 有 一 组 水 平 伸 出 插 物理 实现 形式 






CPU 
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槽 形式 的 连接 点 ， 这 种 插 槽 用 以 支持 印刷 线路 板 。 每 个 主要 系统 部 件 都 占用 一 个 或 多 个 接 插 板 ， 
并 从 这 些 槽 中 插入 总 线 。 整 个 装置 被 安 在 低 架 上 。 这 种 方式 仍 可 以 用 于 连接 一 个 计算 机 系统 的 
部 分 总 线 。 然 而 ， 当 代 系 统 倾向 于 使 用 像 处 理 器 那样 的 芯片 ， 芯 片上 有 更 多 的 元 器 件 ， 从 而 能 使 
所 有 的 主要 部 件 都 在 同一 块 板 上 。 因 此 ， 一 个 片上 总 线 可 连接 处 理 器 和 cache， 而 一 个 板 上 总 线 
可 连接 处 理 器 到 主 存 和 其 他 部 件 。 

这 种 布置 是 最 方便 的 。 小 配置 的 计算 机 系统 以 后 可 以 通过 增加 更 多 的 板 来 扩展 (更 多 的 存 
储 器 、 更 多 的 0) 。 如 果 板 上 的 某 个 部 件 出 现 了 故障 ， 将 这 块 板 拔 下 并 替换 即 可 。 


3.4.2 ”多 总 线 层 次 结构 


如 果 大 量 的 设备 连 到 总 线 上 ， 人 性 能 将 会 下 降 ， 这 主要 有 两 个 原因 : 

(1) 总 的 来 说 ， 总 线 上 连接 的 设备 越 多 ， 总 线 长 度 就 越 长 ， 传 输 延 迟 就 越 大 ， 而 这 个 延迟 
决定 了 设备 协调 总 线 使 用 所 花费 的 时 间 。 当 总 线 控制 频繁 地 由 一 个 设备 传递 到 另 一 个 设备 时 ， 
传输 延迟 显著 地 影响 性 能 。 

(2) 当 聚 集 的 传输 请 求 接近 总 线 容 量 时 ， 总 线 便 会 成 为 瓶颈 。 通 过 提高 总 线 的 数据 传输 率 
或 使 用 更 宽 的 总 线 〈 例 如 ， 将 数据 总 线 由 32 位 增加 到 64 位 ) ， 这 个 问题 在 某 种 程度 上 可 以 得 到 
缓解 。 然 而 ， 由 挂 接 设备 〈 例 如 ， 图 形 和 视频 控制 器 、 网 络 接口 ) 产生 的 数据 速度 快速 增长 ， 
所 以 这 是 单一 总 线 最 终 注定 要 失败 的 竞赛 。 

因此 ， 多 数 计算 机 系统 都 使 用 多 总 线 ， 通 常 布置 为 层次 结构 。 图 3-18a 显示 了 典型 的 传统 总 
线 结构 。 局 部 总 线 连接 处 理 器 和 高 速 缓存 ， 它 可 用 于 支持 一 个 或 多 个 局 部 设备 。 高 速 缓存 控制 器 
不 仅 将 高 速 缓存 连接 到 该 局 部 总 线 ， 而 且 将 它 连 到 接 人 了 所 有 主 存储 器 模块 的 系统 总 线 。 正 如 
第 4 章 中 将 要 讨论 的 一 样 ， 高 速 缓存 的 使 用 避免 了 处 理 器 对 主 存储 器 的 频繁 访问 。 因 此 ， 主 存储 
器 可 以 从 局 部 总 线 移 到 系统 总 线 。 同 样 ，LO 和 主 存储 器 通过 系统 总 线 来 传送 信息 ， 不 影响 处 理 
器 的 活动 。 

将 O 控制 器 直接 连接 到 系统 总 线 上 是 可 行 的 。 更 高 效 的 方法 是 ， 为 此 使 用 一 个 或 多 个 扩展 
总 线 。 系 统 总 线 与 挂 在 扩展 总 线 上 的 VO 控制 器 之 间 的 数据 传输 可 以 通过 扩展 总 线 接口 来 进行 组 
冲 。 这 种 方案 允许 系统 支持 更 广泛 的 各 种 O 设备 ， 同 时 将 存储 器 到 处 理 器 的 传输 与 VO 传输 
隔 开 。 

图 3-18a 显示 了 某 些 可 以 连接 到 扩展 总 线 上 的 VO 设备 的 典型 实例 。 网 络 连接 包含 局 域 网 
(例如 LOMb/s 的 以 太 网 ) 和 广域网 (例如 分 组 交换 网 ) 。SCSI (小 型 计算 机 系统 接口 ) 本 身 就 
是 一 种 总 线 ， 它 支持 本 地 磁盘 驱动 器 和 其 他 外 设 。 串 行 口 可 用 来 支持 串 行 打印 机 或 扫描 仪 。 

这 种 传统 的 总 线 结 构 比 较 有 效 ， 但 在 性 能 越 来 越 高 的 O 设备 面前 ， 它 开始 显得 力不从心 。 
为 了 满足 这 些 不 断 增长 的 需要 ， 业 界 采用 的 普遍 方法 是 构造 与 系统 其 余部 分 紧密 集成 的 高 速 总 
线 ， 而 它 仅 要 求 一 个 在 处 理 器 总 线 和 高 速 总 线 之 间 的 桥 。 有 时 称 这 种 方案 为 中 间 层 结构 。 

图 3-18b 表示 了 这 种 方法 的 典型 实现 ， 它 也 有 连接 处 理 器 和 高 速 缓存 控制 器 的 局 部 总 线 ， 而 
高 速 缓存 控制 器 又 连接 到 支持 主 存储 器 的 系统 总 线 上 。 高 速 缓存 控制 器 集成 到 连接 高 速 总 线 的 
桥 或 缓冲 设备 中 。 这 个 总 线 支 持 如 LOOM /s 快速 以 太 网 这 样 的 高 速 LAN 、 视 频 和 图 形 工作 站 控 
制 器 以 及 包括 SCSI 和 FireWire 局 部 外 设 总 线 的 接口 控制 器 ， 后 者 是 专门 用 来 支持 大 容量 VO 设 
备 的 高 速 总 线 。 低 速 设备 仍然 由 扩展 总 线 支 持 ， 以 接口 来 缓冲 扩展 总 线 和 高 速 总 线 之 间 的 传 
输 量 。 

这 种 配置 的 好 处 是 ， 高 速 总 线 使 高 需求 的 设备 与 处 理 器 有 更 紧密 的 集成 ， 同 时 又 独立 于 处 
理 器 。 因 此 ， 不 同 的 处 理 器 和 高 速 总 线 速度 及 信和 号 线 定 义 都 可 以 兼容 。 处 理 器 结构 的 变化 不 影响 
高 速 总 线 ， 反 之 亦 然 。 
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扩展 总 线 
b) 高 性 能 总 线 结构 
图 3-18 ”总 线 配置 的 实例 


3.4.3 总 线 的 设计 要 素 


虽然 存在 着 各 种 不 同 的 总 线 实 现 方案 ， 但 也 有 几 个 用 来 区 分 总 线 的 基本 参数 或 设计 要 素 。 
表 3-2 列 出 了 其 中 的 关键 要 素 。 


表 3-2 总 线 的 设计 要 素 

集中 式 / 分 布 式 同步 /异步 地 址 /数据 

1. 总 线 类 型 

总 线 可 以 分 为 两 种 基本 类 型 : 专用 的 和 复 用 的 。 专 用 总 线 始终 只 负责 一 项 功能 ， 或 始终 分 配 
给 计算 机 部 件 的 一 个 物理 子 集 。 

功能 专用 的 一 个 例子 是 使 用 分 立 专用 的 地 址 线 和 数据 线 ， 这 种 情况 在 许多 总 线 中 很 常见 ， 
但 这 不 是 必须 的 。 例 如 ， 使 用 一 个 地 址 有 效 (address valid) 控制 线 ， 地 址 和 数据 信息 就 可 以 通 
过 同一 组 线 来 传输 。 在 数据 传送 的 开始 ， 地 址 放 到 总 线 上 ， 地 址 有 效 线 被 激活 。 在 这 一 点 ， 每 个 
模块 在 规定 的 一 段 时 间 内 复制 地 址 ， 并 判断 自己 是 否 是 被 寻 址 的 模块 。 然 后 地 址 从 总 线 上 撤销 ， 


相同 的 总 线 连 线 随后 用 于 读 或 写 数据 的 传输 。 这 种 将 相同 的 线 用 于 多 种 目的 的 方法 称 为 分 时 
复 用 。 






数据 传输 类 型 
读 / 写 / 读 -修改 - 写 / 写 后 读 / 块 
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分 时 复 用 的 优点 是 使 用 的 布线 数量 少 ， 从 而 节省 了 空间 和 成 本 ; 其 缺点 是 在 每 个 模块 中 需 
要 更 复杂 的 控制 电路 ， 而 且 还 可 能 导致 性 能 降低 ， 因 为 共享 总 线 的 特定 事件 不 能 同时 发 生 。 

物理 专用 总 线 指 的 是 使 用 多 条 总 线 ， 每 一 总 线 仅 与 模块 的 一 个 子 集 相 连接 。 一 个 典型 的 例 
子 是 使 用 IO 总 线 连接 所 有 的 IO 模块 ， 然 后 这 一 总 线 再 通过 IO 适配器 模块 连 到 主 总 线 上 。 物 
理 专用 的 洪 在 优点 是 总 线 冲 突 减 少 ， 所 以 具有 高 吞吐 量 ; 缺点 是 增加 了 系统 的 规模 和 成 本 。 

2. 总 线 的 仲裁 方法 

在 除 最 简单 系统 以 外 的 所 有 系统 中 ， 可 能 有 不 止 一 个 模块 需要 控制 总 线 。 例 如 ， 一 个 1/0 模 
块 可 能 需要 直接 读 或 写 存储 器 ， 而 不 是 通过 CPU 发 送 数据 。 由 于 在 总 线 上 每 次 只 有 一 个 器 件 能 
够 成 功 发 送 ， 因 此 需要 某 种 仲裁 方法 。 各 种 仲裁 方法 可 大 致 划分 为 “集中 式 ” 或 “分 布 式 ”两 
类 。 在 集中 式 的 方法 中 ， 被 称 为 总 线 控制 器 〈 或 仲裁 器 ) 的 硬件 设备 负责 分 配 总 线 时 间 。 这 个 
设备 可 以 是 独立 的 模块 ， 也 可 以 是 CPU 的 一 部 分 。 在 分 布 式 的 方法 中 ， 没 有 中 央 控 制 器 ， 而 是 在 
每 个 模块 中 包含 访问 控制 逻辑 ， 这 些 模块 共同 作用 ， 分 享 总 线 。 这 两 种 仲裁 方法 的 目的 都 是 为 了 指 
定 一 个 设备 (CPU 或 VO 模块) 作为 主 控 器 。 然 后 这 个 主 控制 器 启动 与 其 他 设备 的 数据 传输 〈 例 
如 读 或 写 ) ， 后 者 在 这 一 次 数据 交换 中 作为 从 属 设备 。 

3. 时 序 

时 序 是 指 总 线 上 协调 事件 的 方式 ， 总 线 使 用 同步 时 序 或 异步 时 序 。 

对 于 同步 时 序 ， 总 线 上 事件 的 发 生 由 时 钟 决定 。 总 线 包 含 时 钟 信号 (clock) 线 ， 它 传送 相 
同 长 度 的 由 0、1 交替 的 规则 信号 组 成 的 时 钟 序列 。 一 次 1 ~0 传送 称 为 时 钟 周期 或 总 线 周期 ， 它 
定义 了 一 个 时 间 槽 。 总 线 上 其 他 所 有 设备 都 能 读 取 时 钟 线 ， 而 且 所 有 事件 都 在 时 钟 周期 的 开始 
时 发 生 。 图 3-19 显示 了 一 个 典型 的 、 但 简单 的 同步 读 和 写 操 作 的 时 序 图 ( 见 附 录 3A 对 时 序 图 的 
描述 ) 。 其 他 总 线 信号 可 以 在 时 钟 上 升 沿 处 发 生 改变 〈( 稍 有 反应 延迟 ) 。 大 多 数 事 件 占用 一 个 时 
钟 周期 。 在 这 个 简单 的 例子 中 ， 处 
理 器 在 第 1 个 时 钟 周 期 将 存储 器 地 
址 放 到 地 址 总 线 上 ， 并 且 可 以 声明 
各 种 状态 线 。 一 旦 地 址 线 上 的 信号 
稳定 ， 处 理 器 就 会 发 出 一 个 地 址 允 
许 信号 。 对 于 读 操作 ， 处 理 器 在 第 
2 个 时 钟 周期 开始 时 发 出 一 个 读 命 
令 。 存 储 器 模块 识别 地 址 ， 在 延迟 
1 个 周期 后 ， 将 数据 放 到 数据 线 上 。 
处 理 器 从 数据 线 上 读 取 数 据 ， 并 且 
撤销 读 信号 。 对 于 写 操作 ， 处 理 器 
在 第 2 个 周期 开始 时 将 数据 放 到 数 
据 线 上 ， 并 且 在 数据 线 稳定 后 发 出 
一 个 写 命令 。 存 储 器 模块 在 第 3 个 
时 钟 周期 从 数据 线 上 复制 信息 。 

对 异步 时 序 来 说 ， 总 线 上 一 个 
事件 的 发 生 取 决 于 前 一 个 事件 的 发 
生 。 在 图 3-20a 读 周 期 的 简单 例子 ' 
号 到 总 线 上 。 待 这 些 信号 稳定 后 ， 

它 发 出 读 命令 ， 指 示 有 效 地 址 和 控制 信号 的 存在 。 相 应 的 存储 器 模块 译 码 地 址 并 将 数据 放 到 数 
据 线 上 。 一 旦 数据 线 上 的 信号 稳定 ， 则 存储 器 模块 使 确认 信号 有 效 ， 以 便 通知 处 理 器 数据 可 用 。 
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0 
信号 。 最 后， 一 旦 确认 信号 撤除 ， 则 处 理 器 撤除 地 址 信息 。 


sl 全 出 一 个 简单 的 异步 写 操作 例 
子 。 在 此 情况 中 ， 总 线 的 主 控 者 将 数据 放 到 
数据 线 上 ， 与 此 同时 启动 状态 线 和 地 址 线 。 
存储 器 模块 通过 从 数据 线 上 复制 数据 来 响 
应 写 命令 ， 并 使 确认 线 上 的 信号 有 效 。 然 
后 ， 主 控 者 撤除 写 命令 信号 ， 而 存储 器 模块 
撤除 确认 信号 。 

同步 时 序 的 实现 和 测试 都 很 简单 ， 但 
同步 时 序 没 有 异步 时 序 灵活 ， 因 为 同步 总 
线 上 的 所 有 设备 都 遵循 固定 的 时 钟 频率 ， 
系统 不 能 发 挥 高 性 能 设备 的 优势 。 对 于 蜡 
步 时 序 来 说 ， 不 论 设备 是 快 还 是 慢 ， 使 用 的 
技术 是 新 还 是 旧 ， 都 可 以 共享 总 线 。 

4. 总 线 宽 度 

前 面 已 经 介绍 了 总 线 宽 度 的 概念 。 数 
据 总 线 的 宽度 对 系统 性 能 有 重要 影响 : 数 
据 总 线 越 宽 ， 一 次 能 传送 的 位 数 就 越 多 。 地 
址 总 线 的 宽度 对 系统 容量 有 重要 影响 : 地 
址 总 线 越 宽 ， 可 以 访问 的 单元 就 越 多 。 

5. 数据 传输 类 型 

总 线 支 持 各 种 数据 传输 类 型 ， 如 图 3-21 


nen — CE’ 





数据 线 < 有效 数据 》 
Rp 
a) 系统 总 线 的 读 周期 





b) 系统 总 线 的 写 周期 
图 3-20 异步 总 线 操作 时 序 
所 示 。 所 有 的 总 线 都 支持 写 ( 主 控制 器 到 从 属 设备 ) 


AM 〈 从 属 设备 到 主 控制 器 ) 的 传输 。 在 复 用 型 地 址 /数据 总 线 中 ， 总 线 先 用 于 指定 地 址 ， 然 后 
用 于 传输 数据 。 对 于 读 操 作 ， 数 据 由 从 属 设备 取得 并 放 到 总 线 上 时 ， 典 型 的 情况 是 有 一 个 等 待 。 
无 论 是 读 还 是 写 ， 如 果 有 必要 通过 仲裁 为 其 余 的 操作 获得 总 线 的 控制 权 (也 就 是 说 ， 先 占有 总 
线 来 请 求 读 写 ， 然 后 再 一 次 占有 总 线 执行 读 写 ) ， 则 同样 存在 延迟 。 





Hi a= 
wau | 主 控 者 在 同一 isle 

内 将 数据 和 地 

至 分 开 的 a 





本 操作 ( 非 复 用 ) 


读 操作 〈 复 用 ) 
ae] = 
读 - 修改 - 写 操作 





读 操作 ( 非 复 用 ) 





成 块 数据 传输 


图 3-21 


总 线 数据 传输 类 型 
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在 专用 的 地 址 和 数据 总 线 中 ， 地 址 放 到 地 址 线 上 并 一 直 保持 到 数据 出 现在 数据 线 上 。 对 于 
写 操作 ， 地 址 一 旦 稳定 ， 主 控制 器 就 把 数据 放 到 数据 线 上 ， 这 时 从 属 设备 已 经 有 机 会 识别 其 地 
址 。 对 于 读 操 作 ， 从 属 设备 一 旦 识别 出 地 址 并 准备 好 数据 ， 就 将 数据 放 到 数据 总 线 上 。 

某 些 总 线 允 许 几 种 组 合 操作 。“ 读 -修改 - 写 ” 操 作 是 在 读 之 后 紧 接着 向 同一 地 址 写 数据 。 地 
址 仅 在 操作 的 开始 广播 一 次 。 为 了 防止 其 他 潜在 的 主 控制 器 访问 此 数据 单元 ， 整 个 操作 是 不 可 
分 的 。 这 一 原则 是 为 了 在 多 道 程 序 系统 中 保护 共享 的 存储 器 (参见 第 8 章 ) 。 

“ 写 后 读 ” 也 是 一 种 不 可 分 割 的 操作 ， 它 是 指 写 之 后 紧 接 着 对 同一 地 址 的 读 取 ， 这 个 读 操作 
可 用 于 校 验 。 

有 些 总 线 系统 还 支持 数据 块 的 传输 。 在 这 种 情况 中 ,一 个 地 址 周期 后 面 跟着 n 个 数据 周期 。 
第 1 个 数据 传输 使 用 指定 的 地 址 ， 其 余 的 数据 项 传输 使 用 后 续 地 址 。 


3.5 PCI 


外 设 部 件 互 连 (PCL) 总 线 是 一 种 高 带宽 、 独 立 于 处 理 器 的 总 线 ， 它 能 够 作为 中 间 层 或 外 围 
设备 总 线 。 与 其 他 普通 的 总 线 规范 相 比 ，PCI 为 高 速 的 IO 子 系统 (例如 ， 图 形 显示 适配器 、 网 
络 接口 控制 器 、 磁 盘 控制 器 等 ) 提供 了 更 好 的 性 能 。 当 前 的 标准 允许 在 66MHz 的 频率 下 使 用 多 
达 64 根 数据 线 。 从 理论 上 讲 ， 其 速率 可 达到 528MB/s 或 者 4.224Cb/s。 然 而 ，PCI 的 优势 不 仅仅 
是 它 的 高 速度 ，PCI 是 专门 为 满足 现代 系统 的 VO 要 求 而 设计 的 较 经 济 的 总 线 ， 实 现 它 只 需 很 少 
的 芯片 ， 而 且 它 支持 将 其 他 总 线 连 到 PCI 总 线 上 。 

Intel 在 1990 年 开始 为 其 Pentium RAFE PCI, WRR, ned 将 所 有 的 专利 向 外 界 公开 ， 并 促 
进 了 工业 协会 ，PCI SIG (PCI 特别 兴趣 组 ) 的 创建 ， 它 的 任务 是 进一步 开发 并 维护 PCI 规范 的 
兼容 性 。 结 果 是 PCI 被 广泛 地 采纳 ， 越 来 越 多 地 应 用 到 个 人 计算 机 、 工 作 站 以 及 服务 器 系统 中 。 
由 于 这 个 规范 是 公开 的 ， 而 且 它 得 到 了 许多 微 处 理 器 和 外 围 设 备 生产 商 的 支持 ， 因 此 不 同 生产 
商 的 PCI 产品 是 相互 兼容 的 。 

PCI 支持 各 种 基于 处 理 器 的 配置 ， 包 括 单 处 理 器 和 多 处 理 器 系统 。 相 应 地 ， 它 提供 一 组 通用 
的 功能 ， 并 使 用 同步 时 序 以 及 集中 式 仲 裁 机 制 。 

图 3-22a 表示 了 在 单 处 理 器 系统 中 使 用 PCI 的 一 个 典型 例子 。DRAM 控制 器 与 到 PCI 总 线 的 
桥接 器 相 结合 ， 提 供 了 与 处 理 器 更 紧密 的 耦合 ， 同 时 提供 高 速 传输 数据 的 能 力 。 这 个 桥接 器 扮演 
着 “数据 缓冲 ”的 角色 。 这 样 ，PCI 总 线 的 速度 可 以 与 处 理 器 的 VO 处 理 器 速度 不 同 。 在 多 处 理 
器 系统 中 (如 图 3-22b 所 示 ) ， 一 个 或 者 多 个 PCI 总 线 可 通过 桥接 器 连接 到 处 理 器 所 在 的 系统 总 
线 上 。 系 统 总 线 只 支持 处 理 器 /高 速 缓存 单元 、 主 存储 器 以 及 PCI 桥接 器 。 而 且 ， 桥 接 器 的 使 用 
保证 了 PCI 独立 于 处 理 器 ， 同 时 又 能 提供 快速 传送 或 接收 数据 的 能 力 。 


3.5.1 总 线 结 构 

PCI 可 以 配置 成 32 位 或 64 位 总 线 。 表 3-3 定义 了 49 线 PCI 所 需 的 信号 线 ， 按 照 功能 分 为 以 
PULA: 

。 系统 引 脚 : 包括 时 钟 和 复位 引 脚 。 

© 地 址 和 数据 引 脚 : 包括 32 根 分 时 复 用 的 地 址 线 和 数据 线 。 在 这 一 组 中 ， 其 他 信号 线 用 来 
解释 并 使 传送 的 地 址 和 数据 的 信号 线 有 效 。 
接口 控制 引 脚 : 控制 数据 交换 的 时 序 ， 并 提供 发 送 端 和 接收 端的 协调 。 
仲裁 引 脚 : 不 同 于 其 他 PCI 信号 线 ， 它 们 是 不 共享 的 线 ， 每 个 PCI 主 控制 器 有 自己 的 一 
对 仲裁 线 ， 它 们 直接 连 到 PCI 总 线 仲裁 器 上 。 
。 错误 报告 引 脚 : 用 于 报告 奇偶 校 验 位 以 及 其 他 的 错误 。 


第 3 章 计算 机 功能 和 互 连 的 顶层 视图 . 59 


VO 设备 








b) 典型 的 服务 器 系统 
图 3-22 PCI 配置 实例 


表 3-3 必 备 的 PCI 信号 线 



























































符号 名 称 中 文 名 称 uw 
RASIN 
a 所 有 交换 的 时 钟 基准 ， 其 上 升 沿 被 所 有 的 输入 所 采样 ， 支 持 的 最 
ii HS "| 高 时 钟 速率 为 33MHz 
RST# 复位 信号 in 强迫 所 有 的 PCI 专用 的 寄存 器 、 定 序 器 和 信号 转 为 初始 状态 
地 址 和 数据 引 肢 
AD[31::0] 地 址 /数据 线 。 ”| vs | ”用 于 地 址 和 数据 的 复 用 引 肝 
cpetsnoje | WOE PRI, 复 用 的 总 线 命令 和 字 节 允许 信号。 在 传送 数据 阶段 ， 这 4 条 线 指 
信号 示 4 个 字 节 通 路 中 的 哪个 字 节 有 效 
比 AD 和 C/BE 延 后 一 个 时 钟 周 期 ， 提 供 “ 偶 校 验 "。 主 控制 器 
PAR 校 验 信号 Vs | (Master) 在 写 数据 阶段 驱动 PAR;， 而 接收 端 设备 在 读数 据 阶段 驱 
动 PAR 
接口 控制 引 脚 
当前 的 主 控制 器 用 其 指示 本 次 传输 开始 并 在 整个 传输 中 保持 有 
FRAME# 帧 有 效 信号 s/Vs | 效 。FRAME# 在 传输 开始 时 有 效 ( 呈 低 电 平 ) ， 并 当 发 送 端 准备 开 
始 最 后 的 数据 交换 阶段 时 撤销 
由 当前 的 总 线 主 控制 器 〔 交 换 的 发 送 端 ) 驱动 。 在 读 操作 周期 ， 
IRDY# 发 送 端 就 绪 s/Vs | 表示 主 控制 器 已 准备 好 接收 数据 ; 在 写 操作 周期 ， 表 示 有 效 数据 已 
放 到 地 址 /数据 线 上 
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符号 名 称 中 文 名 称 说 明 
接口 控制 引 及 


由 目标 (被 选中 的 设备 ) 驱动 。 在 读 操作 中 ， 表示 有 效 数 据 已 
放 到 地 址 /数据 线 上 ; 在 写 操作 周期 ， 表示 目标 已 准备 好 接收 数据 


表示 当前 的 目标 希望 发 送 端 暂停 当前 的 交换 
可 初始 化 被 选择 设备 ， 在 读 和 写 交 换 时 常 作为 片 选 信 号 


由 目标 驱动 ， 在 识别 出 有 效 地 址 时 有 效 ， 用 以 向 当前 的 发 送 端 指 
示 设 备 是 否 被 选中 


仲裁 引 肢 
向 仲裁 器 申请 使 用 总 线 ， 它 是 一 条 设备 专用 的 点 对 点 的 信号 线 


仲裁 器 准许 请 求 设备 使 用 总 线 ， 它 是 一 条 设备 专用 的 点 对 点 的 信 
号 线 















TRDY# 





STOP# 








IDSEL 初始 化 设备 选择 





DEVSEL# 











REQ# | 请 求 信号 











GNT# 允许 信号 








错误 报告 引 肢 

















表示 在 写 数据 阶段 目标 检测 到 一 个 数据 的 奇偶 校 验 错 ， 或 在 读数 
据 阶 段 由 发 送 端 检测 到 奇偶 校 验 错 


可 由 任何 设备 发 出 ， 用 以 报告 地 址 奇偶 校 验 错 和 奇偶 校 验 以 外 的 
其 他 严重 错误 


PERR# 奇偶 校 验 错 





SERR# 系统 错误 


此 外 ，PCI 规范 还 定义 了 51 个 可 选 的 信号 线 (如 表 3-4 所 示 ) ， 它 们 分 为 以 下 几 个 功能 组 : 

。 中 断 引 脚 : 它们 提供 必须 请 求 服务 的 PCI 设备 。 同 仲裁 引 脚 一 样 ， 它 们 也 是 不 共享 的 。 
每 个 PCI 设备 有 自己 的 中 断 线 或 连接 到 中 断 控 制 器 的 线 。 

。 高 速 缓存 支持 引 脚 : 需要 用 这 些 引 脚 来 支持 在 处 理 器 或 其 他 设备 中 能 被 高 速 缓存 的 PCT 
上 的 存储 器 。 这 些 引 脚 支 持 高 速 缓存 监听 协议 (参见 第 8 章 有 关 这 个 协议 的 讨论 ) 。 

。 64 位 总 线 扩 展 引 脚 : 包括 32 根 分 时 复 用 的 地 址 线 和 数据 线 。 它 们 与 必 有 的 地 址 /数据 线 
一 起 ， 形 成 64 位 的 地 址 /数据 总 线 。 这 一 组 中 的 其 余 线 用 于 解释 传送 该 地 址 和 数据 的 信 
号 并 使 之 有 效 。 最 后 ， 还 有 使 两 个 PCI 设备 具备 64 位 能 力 的 两 根 线 。 

。 JTAG/ 边 界 扫描 引 脚 : 这 些 信号 线 支 持 IEEE 标准 1149.1 中 定义 的 测试 程序 。 


表 3-4 可 选 的 PCI 信号 线 
符号 名 称 中 文 名 称 说 明 
中 断 引 及 
中 上 断 请 求 A 用 于 请 求 中 类 
用 于 请 求 中 断 ， 仅 对 多 功能 设备 有 意义 
用 于 请 求 中 断 ， 仅 对 多 功能 设备 有 意义 
用 于 请 求 中 断 ， 仅 对 多 功能 设备 有 意义 















































cache 支持 引 脚 
SBO# 监听 后 退 in/out 表示 命中 某 个 已 经 修改 的 行 
SDONE 监听 完成 in/out 表示 当前 监听 状态 ， 当 前 的 监听 完成 时 有 效 
64 位 总 线 扩展 引 脚 





ADL63 ::32] ao Vs 将 总 线 扩展 为 64 位 的 地 址 和 数据 复 用 线 
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( 续 ) 
符号 名 称 中 文 名 称 类 型 说 明 
64 位 总 线 扩展 引 脚 


总 线 命令 和 字 节 人 允许 信号 的 复 用 线 。 在 地 址 阶段 ， 这 些 线 提 供 了 
额外 的 总 线 命令 。 在 数据 阶段 ， 这 些 线 用 于 指示 4 个 扩展 的 字 节 通 
道中 哪 几 个 有 效 


用 于 请 求 64 位 的 传输 

表示 目标 将 执行 64 位 传输 

比 AD 和 C/BE 延 后 一 个 时 钟 周期 ， 提 供 扩展 的 64 位 偶 校 验 
JTAG/ 边 界 扫描 引 脚 


在 边界 扫描 阶段 ， 用 于 为 状态 信息 和 测试 数据 输入 、 输 出 设备 提 
供 时 钟 


用 于 串 行 地 将 数据 和 指令 移 人 设备 
用 于 串 行 地 将 数据 和 指令 移出 设备 
用 于 控制 测试 访问 端口 控制 器 的 状态 
用 于 初始 化 测试 访问 端口 控制 器 













扩展 的 命令 / 字 节 | v 
允许 信号 








64 位 请 求 信号 
64 位 响应 信号 
PAR64 64 位 校 验 信号 ts 



























测试 时 钟 in 





















测试 输入 
测试 输出 


测试 模块 选择 
测试 复位 


TE: in 单 向 输入 信号 。 
out 单 向 输出 信和 号。 
ts Minh], =A. VOTES. 
s/ts 每 次 只 能 由 一 个 拥有 者 驱动 的 持续 三 态 信号。 
o/d 集 电极 开路 ， 允 许多 个 设备 通过 “ 线 或 ”共享 连接 。 
# 低 电 平 有 效 的 信号 。 


















3.5.2 ”PCI 命令 


在 发 送 端 (或 称 为 主 控 方 ) 与 目标 端 之 间 进行 信息 交换 时 ， 总 线 活动 开始 。 当 总 线 的 主 控 
方 获得 总 线 控制 权时 ， 它 决定 即将 发 生 的 传送 类 型 。 在 地 址 传送 周期 ，C/BE (命令 / 字 节 ) 信号 
线 用 来 指示 传送 类 型 。 这 些 命 令 包 括 : 中 断 响应 、 特 殊 周期 、 0 读 、LO 写 、 存 储 器 读 、 存 储 
右 读 行 、 存 储 器 读 多 行 、 存 储 器 写 、 存 储 器 写 和 无 效 、 配 置 恋 、 配 置 写 、 双 地 址 周期 。 

中 断 响应 是 一 条 读 命 令 ， 其 目的 是 为 了 使 设备 作为 PCI 总 线 上 的 中 断 控制 器 。 此 时 ， 地 址 传 
送 周期 中 地 址 线 并 不 使 用 ， 而 字 节 允许 信号 指示 可 返回 的 中 断 标识 

特殊 周期 命令 用 来 由 发 送 端 向 一 个 或 多 个 目标 广播 消息 。 

VO RA VO 写 命令 用 来 在 发 送 端 和 VO 控制 器 之 间 传 送 数据 。 每 个 VO 设备 有 其 自己 的 地 
址 空间 ， 其 地 址 线 用 于 指定 特定 的 设备 ， 并 向 指定 设备 发 送 或 从 设备 接收 的 数据 。LO 地 址 的 概 
念 将 在 第 7 章 深入 讨论 。 

存储 器 读 和 存储 器 写 命令 用 于 激发 数据 的 突 发 式 传输 ， 传 输 占用 一 个 或 多 个 时 钟 周期 。 这 
些 命令 的 解释 依赖 于 PCI 总 线 上 的 内 存 控制 器 是 否 支持 PCI 协议 在 存储 器 和 高 速 缓存 之 间 进 行 伟 
输 。 如 果 支 持 ， 则 与 存储 器 之 间 的 数据 传输 一 般 以 高 速 缓存 的 行 或 块 2 来 进行 。3 条 存储 器 读 命 
令 的 用 途 如 表 3-5 所 示 。 存 储 器 写 命令 用 于 向 存储 器 传送 数据 ， 它 占用 一 个 或 多 个 数据 周期 。 存 
储 器 写 和 无 效 命令 也 用 一 个 或 多 个 周期 来 给 存储 器 传送 数据 。 而 且 ， 它 保证 至 少 一 个 高 速 缓存 
行 是 写 操作 。 这 条 命令 支持 向 存储 器 回 写 一 行 的 高 速 缓存 功能 。 

两 个 配置 命令 使 主 控制 器 能 够 读 和 更 新 与 PCI 相连 的 设备 的 配置 参数 。 每 个 PCI 设备 可 能 包 
含 最 多 256 个 内 部 寄存 器 ， 它 们 用 来 在 系统 初始 化 时 配置 设备 。 





O 高 速 缓存 的 基本 原理 将 在 第 4 章 中 介绍 ， 基 于 总 线 的 高 速 缓存 协议 将 在 第 17 章 中 描述 。 
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R35 ”PCI 读 命令 的 解释 








可 高 速 缓存 类 型 
突 发 传送 半 个 或 不 到 一 个 高 速 缓存 行 的 数据 
突 发 传送 半 个 到 3 个 高 速 缓存 行 的 数据 
突 发 传送 3 个 以 上 的 高 速 缓 存 行 的 数据 


不 可 高 速 缓存 类 型 
突 发 2 个 数据 传输 周期 或 更 少 
突 发 3 ~ 12 个 数据 传输 周期 
突 发 超过 12 个 数据 传输 周期 

















双 地 址 周期 命令 由 发 送 端 来 指示 它 使 用 64 位 寻 址 。 


3.5.3 ”数据 传送 


PCI 总 线 上 的 每 个 数据 传送 都 是 由 一 个 地 址 周期 和 一 个 或 多 个 数据 周期 组 成 的 单一 事项 。 在 
本 讨论 中 ,我 们 说 明 一 个 典型 的 读 操 作 ， 写 操作 的 过 程 与 之 相似 。 

图 3-23 显示 了 读 事项 的 时 序 。 所 有 事件 均 在 时 钟 的 下 降 沿 同步 ， 即 在 每 个 时 钟 周期 的 中 央 
发 生 。 总 线 设 备 在 总 线 周 期 开始 时 的 上 升 沿 对 总 线路 采样 。 下 面 是 图 3-23 中 所 标 出 的 重要 事件 : 

(a) 一 旦 总 线 的 主 控制 器 获得 总 线 控制 权 ， 它 通过 使 FRAME 有 效 〈 降 为 低 电 平 ) 来 启动 事 
务 ，FRAME 线 将 一 直 保持 有 效 ， 直 到 发 送 端 就 绪 完 成 最 后 一 次 数据 传送 。FRAME 有 效 之 后 ， 发 
送 端 将 起 始 地 址 放 到 地 址 总 线 上 ， 并 且 将 读 命令 放 在 C/BE 信号 线 上 。 

(b) 4CLK2 开始 时 ， 目 标 设备 将 会 识别 AD 线 上 的 地 址 信号 。 


2 8 
(a) | | N 
| | 
FRAME# Ch) | 
| 





地 址 期 数据 期 数据 期 数据 期 
等 待 状态 等 待 状态 等 待 状态 
总 线 事项 


图 3-23 PCI 读 操 作 


(c) 发 送 端 停止 驱动 AD 总 线 。 所 有 可 能 由 多 个 设备 驱动 的 信号 线 要 求 一 个 切换 周期 (用 两 
个 环形 的 箭头 来 表示 ) ， 这 样 ， 地 址 信号 会 失效 而 使 总 线 被 目标 设备 所 用 。 发 送 端 修改 C/BE 线 
上 的 信息 ， 以 指示 AD 线 传送 数据 中 哪些 字 节 有 效 (从 1~4 字 节 )。 发 送 端 同时 使 IRDY 降 为 低 
EF (有 效 ) ， 表 示 它 已 准备 接收 第 1 个 数据 项 。 

(d) 被 选中 目标 的 DEVSEL 信号 线 有 效 ( 降 为 低 电 平 )， 表 示 收 到 了 有 效 的 地 址 ， 并 将 响 
应 。 目 标 设备 将 所 要 求 的 数据 放 到 AD 总 线 上 并 使 TRDY 信号 有 效 〈 降 为 低 电 平 ) ， 表 示 已 将 有 
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效 数据 放 在 总 线 上 了 o 

(e) 发 送 端 在 CLK 4 的 开始 时 读数 据 ， 并 改变 字 节 允许 信号 ， 为 下 一 次 读 操 作 做 准备 。 

(f) 在 这 个 例子 中 ， 目 标 设备 需要 一 些 时 间 为 第 2 块 数据 的 传输 做 准备 。 因 此 ， 它 将 TRDY 
置 为 无 效 (高 电 平 ) ， 以 通知 发 送 端 下 一 周期 没有 新 的 数据 。 相 应 地 ， 发 送 端 在 CLK 5 开始 时 不 

会 读数 据 ， 并 且 在 这 个 周期 中 不 改变 字 节 允许 信号 。 第 2 块 数据 在 CLK 6 开始 时 被 读 取 。 

(g) Æ CLK 6 周期 中 ,目标 将 第 3 块 数据 项 放 到 总 线 上 。 但 是 在 这 个 例子 中 ， 发 送 端 还 没 
有 准备 好 读数 据 (例如 ， 它 暂时 处 在 缓冲 区 满 的 状态 ) 。 于 是 ， 它 使 IRDY 无 效 ( 变 为 高 电 平 )， 
迫使 目标 设备 的 第 3 块 数据 项 在 总 线 上 多 保持 一 个 时 钟 周期 。 

(h) 发 送 端 知道 传送 的 第 3 块 数据 是 最 后 一 个 ， 因 此 它 使 FRAME 变 为 高 电 平 ( 无效) ， 以 
通知 目标 这 是 最 后 一 次 数据 传送 ， 同 时 发 送 端 再 次 使 IRDY 降 为 低 电 平 (有效) ， 表 示 它 已 准备 
好 完成 这 次 传送 。 

(i) 完成 传输 后 ， 发 送 端 取消 IRDY， 使 总 线 变 回 空 闲 状态 。 同 时 目标 使 TRDY 和 DEVSEL 
处 于 无 效 状 态 。 


3.5.4 ”仲裁 


PCI 使 用 集中 式 的 同步 仲裁 方法 ， 主 控 方 有 独立 的 请 求 (REQ) 信号 和 人 允许 (GNT) 信号 。 
这 些 信 号 线 连接 到 中 央 仲 裁 器 上 〈 如 图 3-24 所 示 )， 它 使 用 一 种 简单 的 “请 求 - 允 许 ” 的 握手 联 
络 方式 来 访问 总 线 。 














PCI max 


PCI 规范 没有 规定 具体 的 仲裁 算法 。 仲 裁 器 能 够 使 用 “ 先 到 先 服务 ”的 方法 、“ 轮 转 ” 方 法 
或 某 种 优先 方法 。PCI 主 控 方 必须 为 它 期 望 完成 的 每 个 事项 进行 仲裁 ， 单 一 事项 包含 一 个 地 址 周 
期 后 面 跟 着 一 个 或 多 个 数据 周期 。 

图 3-25 给 出 设备 A 和 B 为 使 用 总 线 进行 仲裁 的 例子 ， 其 仲裁 的 时 序 如 下 所 述 : 

(a) 在 CLK 1 开始 前 ,A 已 经 产生 了 低 电 平 的 REQ 信号 (有效 ) ， 仲 裁 器 在 CLK 1 的 开始 
时 采样 到 这 一 信号 。 

(b) Æ CLK 1}, B 的 REQ 信号 变 为 低 电 平 (有 效 )， 也 请 求 使 用 总 线 。 

(c) 同时 ， 仲 裁 器 输出 的 GNT-A 变 为 低 电 平 ， 允 许 A 访问 总 线 。 

(d) Æ CLK 2 开始 时 ， 总 线 主 控 方 A 采样 到 GNT-A 信号 ， 知 道 它 已 经 被 允许 访问 总 线 。 同 
时 它 发 现 IRDY 和 TRDY 此 时 仍 为 无 效 的 高 电 平 ， 表 明 此 时 总 线 是 空闲 状态 。 因 此 ，A 使 FRAME 
党 号 有 效 〈 降 为 低 电 平 ) ， 并 将 地 址 信息 放 到 地 址 总 线 上 ， 将 命令 放 到 C/BE HRE (WAT 
出 )。 同 时 A 继续 使 REQ-A 保持 有 效 ， 因 为 它 随后 要 执行 第 二 个 事项 。 

(e) 总 线 仲裁 器 在 CLK 3 的 开始 时 对 所 有 REQ 线 采样 ， 并 决定 将 总 线 准许 给 B 进行 下 一 事 
项 ， 然 后 ， 它 声明 GNT-B 有 效 并 撤销 GNT-A。 但 B 只 有 等 到 总 线 恢复 为 空闲 状态 时 ， 才 能 够 使 
用 总 线 。 

(£) A 撤销 FRAME ， 表 示 正 在 进行 最 后 一 次 数据 传输 ， 同 时 把 数据 放 到 数据 总 线 上 ， 并 通 


图 3-24 PCI 总 线 仲 裁 器 
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AD (地址 X 数据 ) ( 地址 X 数据 / 
A 存 取 B 存 取 














图 3-25 ”两 个 主 控 方 之 间 的 PCI 总 线 仲 裁 


过 IRDY 降 为 低 电 平 ， 通 知 目标 设备 ,使 目标 设备 在 下 一 个 时 钟 周期 开始 时 读数 据 。 

(g) 在 CLK5 时 钟 周期 开始 时 ，B 发 现 IRDY 和 FRAME 已 经 呈 无 效 状态 ， 因 此 将 FRAME 置 
为 低 电 平 取得 总 线 的 控制 。 同 时 它 取消 REQ ， 因 为 它 只 想 完成 一 个 事项 。 

随后 ， 主 控 方 A 被 授予 总 线 访问 权 ， 以 进行 下 一 事项 。 

注意 ， 仲 裁 可 以 在 当前 总 线 主 控 方 进 行 数据 传送 的 时 候 同时 发 生 ， 因 此 ， 总 线 仲裁 不 浪费 总 
线 周期 ， 这 称 为 隐 式 仲裁 。 


3.6 推荐 的 读物 和 Web 站 点 
最 清晰 地 以 全 书 篇 幅 介绍 PCI 的 一 本 书 是 [SHAN99 ] 。[ABO04] 同样 包含 了 许多 关于 PCI 的 实质 信息 。 


ABO04 Abbot, D. PCI Bus Demystified. New York; Elsevier, 2004. 
SHAN99 Shanley, T. , and Anderson, D. PCI Systems Architecture. Richardson, TX: Mindshare Press, 1999. 




















ge 
一 


全 Web 站 点 


PCI Special Interest Group: 提供 PCI 规范 和 产品 的 有 关 信息 。 
PCI Pointers: 指向 PCI 厂商 和 其 他 信息 源 的 链接 。 


3.7 关键 词 、 思 考题 和 习题 


关键 词 


address bus: 地 址 总 线 bus; 总 线 
asynchronous timing: 异步 时 序 bus arbitration; 总线 仲裁 
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bus width: 总 线 宽度 interrupt handler; 中 断 处 理 

centralized arbitration: 集中 式 仲裁 interrupt service routine: 中 断 服务 程序 

data bus: 数据 总 线 memory address register (MAR): 存储 器 地 址 寄存 器 

disable interrupt; 禁止 中 断 memory buffer register (MBR): 存储 器 缓冲 寄存 器 

distributed arbitration; 分 布 式 仲裁 peripheral component interconnect (PCI): 外 设 部 件 

instruction cycle: 指令 周期 互 连 

instruction execute: 指令 执行 synchronous timing: 同步 时 序 

instruction fetch; 取 指 令 system bus: 系统 总 线 

interrupt: 中 断 

思考 题 

3.1 计算 机 指令 指定 的 功能 通常 分 为 哪 几 类 ? 

3.2 列 出 并 简要 定义 指令 执行 的 可 能 状态 。 

3.3 列 出 并 简要 说 明 多 重 中 断 的 两 种 处 理 方法 。 

3.4 计算 机 互 连 结构 (如 总 线 ) 必须 支持 何 种 类 型 的 传送 ? 

3.5 与 单 总 线 相 比 ， 使 用 多 总 线 有 什么 好 处 ? 

3.6 列 出 并 简要 定义 PCI 信号 线 的 功能 组 。 

习题 

3.1 图 3-4 所 示 的 假想 机 器 同样 有 两 个 LO 指令 : 

0011 = 从 VO ŽA AC 

0111 = 将 AC 内 容 存 人 IO 

在 上 述 约 定 下 ， 使 用 12 位 的 地 址 来 标识 一 个 特定 的 IO 设备 。 给 出 下 列 程序 的 执行 过 程 (用 图 3-5 的 
格式 ) : 

(1) 从 设备 5 A AC, 

(2) 与 内 存单 元 940 的 内 容 相 加 。 

(3) 将 AC 存 人 设备 6。 

假设 从 设备 5 提取 的 下 一 个 值 为 3， 而 内 存单 元 940 的 内 容 为 2。 

3.2 本 书 中 使 用 6 步 来 描述 图 3-5 的 程序 执行 ， 请 解释 这 些 步骤 以 说 明 MAR 和 MBR 的 作用 。 

3.3 ”考虑 一 个 假想 的 32 位 微 处 理 器 采用 32 位 的 指令 格式 ， 这 种 指令 有 两 个 部 分 : 第 1 个 字 节 包含 操作 码 ， 
其 余部 分 是 立即 操作 数 或 操作 数 的 地 址 。 

(a) 最 大 可 能 直接 寻 址 的 存储 器 容量 是 多 少 〈 以 字 节 为 单位 )? 
(b) 讨论 下 面 的 微 处 理 器 总 线 对 系统 的 影响 : 

(1) 32 位 局 部 地 址 总 线 和 16 位 局 部 数据 总 线 。 

(2) 16 位 局 部 地 址 总 线 和 16 位 局 部 数据 总 线 。 
(c) 程序 计数 器 和 指令 寄存 器 需要 多 少 位 ? 

3.4 考虑 一 个 假想 的 微 处 理 器 ， 它 产生 16 位 地 址 (例如 ， 假 设 程序 计数 器 和 地 址 寄存 器 都 是 16 位 ) ， 并 且 

有 16 位 数据 总 线 。 

(a) 如 果 处 理 器 连接 到 “16 位 存储 器 ”， 那 么 它 能 直接 访问 的 最 大 存储 器 地 址 空间 是 多 少 ? 

(b) 如 果 处 理 器 连 到 “8 位 存储 器 ”， 那 么 它 能 直接 访问 的 最 大 存储 器 地 址 空间 是 多 少 ? 

Co) 结构 上 的 什么 特点 允许 处 理 器 访问 独立 的 “LO 空间 ? 

(d) 如 果 输 入 和 输出 指令 能 够 指定 一 个 8 位 的 WO 端口 号 ， 那么 处 理 器 能 支持 多 少 个 8 位 的 IO 端口 ? 
它 能 支持 多 少 个 16 位 的 VO 端口 ? 请 解释 。 

3.5 考虑 一 个 32 位 微 处 理 器 ， 它 有 16 位 外 部 数据 总 线 ， 由 8MHz 的 输入 时 钟 驱动 。 假 设 该 处 理 器 的 总 线 周 
期 的 最 小 持续 时 间 等 于 4 个 输入 时 钟 周期 ， 这 个 处 理 器 利用 总 线 能 够 维持 的 最 大 数据 传输 率 是 多 少 
(F/R)? 如 果 将 其 外 部 数据 总 线 扩展 为 32 位， 或 使 提供 给 处 理 器 的 外 部 时 钟 频率 加 倍 ， 能 否 提高 
它 的 性 能 ? 请 陈述 所 做 其 他 假设 的 理由 ， 并 加 以 解释 。 提 示 : 确定 每 个 总 线 周期 所 能 传送 的 字 节 数 。 

3.6 考虑 一 个 计算 机 系统 ， 它 包括 控制 简单 的 键盘 / 电 传 打印 机 的 VO 模块 。 下 列 寄 存 器 包含 在 CPU 中 ， 
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并 且 直 接连 接 到 系统 总 线 上 。 

INPR: 输入 寄存 器 (8 位 ) 

OUTR: 输出 寄存 器 (8 位 ) 

FGI; 输入 标志 (1 位 ) 

FGO: 输出 标志 (1 位 ) 

IEN: 中 断 允许 (1 位 ) 

从 电 传 的 按键 输入 到 电 传 的 打印 机 输出 ， 均 由 VO 模块 控制 。 电 传 能 够 将 字母 符号 编码 成 8 位 的 字 ， 

并 将 8 位 的 字 解 码 为 字母 符号 。 

(a) 描述 该 处 理 器 如 何 能 通过 使 用 本 题 中 给 出 的 前 4 个 寄存 器 来 完成 与 电 传 的 输入 、 输 出 。 

(b) 描述 这 一 功能 如 何 能 通过 使 用 TEN 更 有 效 地 完成 。 

考虑 两 个 微 处 理 器 ， 除 了 一 个 使 用 8 位 宽 的 外 部 数据 总 线 而 另 一 个 使 用 16 位 宽 的 外 部 数据 总 线 之 外 ， 

两 者 没有 其 他 不 同 ， 它 们 的 总 线 周 期 也 是 等 长 的 。 

(a) 假设 所 有 指令 和 数据 都 是 两 字 节 长 ， 则 它们 的 最 大 数据 传输 率 差 几 倍 ? 

(b) 假设 指令 是 一 字 节 长 ， 数 据 是 2 字 节 长 ， 重 复 上 述 问题 。 

图 3-26 表示 一 种 分 布 式 的 仲裁 方法 ， 它 可 用 于 Multibus I 的 陈旧 总 线 方式 中 。 各 单元 按 优先 级 次 序 在 

物理 上 以 菊花 链 的 方式 连接 。 图 上 最 左边 的 单元 持续 接收 总 线 优先 权 输 入 (BPRN) 信号 ， 表 示 没 有 更 

高 优先 级 的 单元 需要 使 用 总 线 。 如 果 这 个 单元 不 需要 使 用 总 线 ， 则 它 声明 自己 的 总 线 优先 级 输出 

(BPRO) 线 。 在 时 钟 周 期 的 开 

始 ， 任 何 单元 都 可 以 使 其 BPRO 

信号 线 为 低 来 请 求 总 线 的 控制 。 

这 使 菊花 链 中 的 下 一 单元 的 

BPRN 线 为 低 ， 而 这 个 单元 也 相 

应 地 降低 自己 的 BPRO 线 。 因 

此 ,信号 就 沿 着 菊花 链 传播 。 
W 六 只 有 一 

ee 13-26 © Multibus I 分布 式 仲裁 

BPRO 无 效 ， 于 是 这 个 单元 获得 了 优先 权 。 如 果 在 总 线 周期 的 开始 ， 总 线 处 于 空闲 状态 (BUSY RE 

效 ) ， 则 获得 优先 权 的 单元 可 以 通过 声明 BUSY 线 来 夺取 总 线 的 控制 权 。 

BPR 信号 从 具有 最 高 优先 级 的 单元 传播 到 具有 最 低 优先 级 的 单元 需要 一 定 的 时 间 。 这 段 时 间 必 须 比 时 

钟 周期 小 吗 ? 请 解释 原因 。 

VAX SBI 总 线 使 用 分 布 式 同步 仲裁 方案 。 每 个 SBI 设备 (例如 处 理 器 、 存 储 器 、LO 模块 ) 有 唯一 的 

优先 级 ， 而 且 被 分 配 一 根 独 立 的 传输 请 求 (TR) 线 。SBI 16 根 这 样 的 线 (TRO, TR1, ---, TRIS), 

其 中 TRO 的 优先 级 最 高 。 当 一 个 设备 想 要 使 用 总 线 时 ， 它 通过 在 当前 时 间 片 中 声明 TR 线 来 预约 未 来 

的 时 间 片 。 在 当前 时 间 片 结束 时 ， 每 个 具有 预约 请 求 的 设备 检查 TR 线 ， 其 中 具有 最 高 优先 级 的 设备 使 

用 下 一 个 时 间 片 。 

最 多 可 有 17 个 设备 连接 到 总 线 上 ， 优 先 级 为 16 的 设备 没有 TR 线 ， 请 说 明 原因 。 











BPRN BPRO | BE 
1 a | (最 低 优先 权 ) 
” 主 控 方 2 i na 


BPRN BPRO 
《最 高 优先 权 ) L 
| EENI 


EEN | 








3.10 Æ VAX SBI 机 上 ， 具 有 最 低 优先 级 的 设备 通常 有 最 低 的 平均 等 待 时 间 。 因 此 ，CPU 在 SBI 中 通常 被 赋 


3 起 


3.12 


予 最 低 的 优先 级 。 为 什么 优先 级 为 16 的 设备 有 最 低 的 平均 等 待 时 间 ? 这 在 什么 条 件 下 不 成 立 ? 

对 于 同步 读 操作 (如 图 3-19 所 示 ) ， 存 储 器 模块 必须 在 Read 信号 下 降 沿 前 有 充分 的 时 间 将 数据 放 到 

总 线 上 ， 以 允许 信和 号 稳定 下 来 。 现 假定 微 处 理 器 总 线 时 钟 频率 是 10MHz， 而 Read 信和 号 在 T, 后 一 半 的 

中 间 开 始 下 降 。 

(a) 确定 存储 器 读 指 令 周 期 的 长 度 。 

(b) 存储 器 至 少 应 何 时 将 数据 放 到 总 线 上 ? 假定 数据 线 稳定 需要 20ns。 

考虑 一 个 具有 图 3-19 的 存储 器 读 时 序 的 微 处 理 器 。 进 行 一 些 分 析 后 ,设计 者 确认 存储 器 提供 的 读数 

据 大 约 落后 了 180ns, 

(a) 若 总 线 时 钟 频率 为 8MHz， 要 进行 恰当 的 系统 操作 ， 需 要 插入 多 少 等 待 状态 (时钟 周期 )? 

(b) 为 了 实施 等 待 状态 ， 使 用 了 Ready (就 绪 ) 状态 线 。 一 旦 处 理 器 发 出 一 个 Read 命令 ， 它 必须 等 
待 直 到 Ready 线 有 效 后 才能 试图 读数 据 。 要 强迫 处 理 器 插 人 所 要 求 的 等 待 状态 数 ，Ready 线 必须 
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在 什么 时 间 间 隔 内 保持 为 低 〈 无 效 )? 

3.13 ” 某 微 处 理 器 具有 图 3-19 所 示 的 存储 器 写 时 序 。 它 的 厂家 指出 ，Write 信号 的 宽度 能 用 7-50 来 确定 ，7 

是 以 ns 为 单位 的 时 钟 周 期 。 

(a) 若 总 线 时 钟 频率 是 5MHz， 则 我 们 预期 的 Write 信号 的 宽度 是 多 少 ? 

(b) 该 微 处 理 器 的 数据 资料 指出 ， 在 Write 信号 下 降 沿 之 后 ， 数 据 要 继续 保持 20ns 的 时 间 有 效 。 提 供 
给 存储 器 的 有 效 数据 总 的 持续 时 间 是 多 少 ? 

(c) 如 果 存 储 器 需要 提交 的 数据 至 少 在 190ns 时 间 内 有 效 ， 则 应 插入 几 个 等 待 状态 ? 

3.14 ” 某 微 处 理 器 具有 对 存储 器 单元 内 容 (单元 的 值 ) 增 1 的 直接 指令 。 此 指令 有 5 个 步 又: 取 操 作 码 (4 
个 总 线 时 钟 周期 )， 取 操作 数 地 址 (3 个 周期 ) ， 取 操作 数 (3 个 周期 ) ， 对 操作 数 加 1 (3 个 周期 ) 和 
存 操作 数 (3 个 周期 ) 。 

(a) 如 果 每 次 存储 器 读 或 写 操作 都 要 插入 两 个 总 线 等 待 状态 ， 则 此 指令 的 周期 将 增加 多 少 ( 以 百分数 
计 )? 
(b) 若 对 操作 数 加 1 操作 不 是 3 而 是 13 个 周期 ， 试 重 做 问题 (a). 

3.15 Intel 8088 微 处 理 器 具有 类 似 于 图 3-19 的 读 总 线 时 序 ， 但 要 求 4 个 处 理 器 时 钟 周 期 。 总 线 上 有 效 数 据 
持续 时 间 已 延长 到 包括 第 4 个 时 钟 周 期 。 假 设 处 理 器 的 时 钟 速率 是 8MHz。 
(a) 最 大 的 数据 传送 速率 是 多 少 ? 

(b) 若 每 字 节 的 传送 都 需要 插 和 人 一 个 等 待 状态 ， 试 重 做 问题 (a) 。 

3.16 Intel 8086 是 一 个 许多 方面 类 似 于 8088 的 16 位 处 理 器 ， 它 使 用 16 位 总 线 ， 能 一 次 传送 2 字 节 ， 以 低 
字 节 有 偶 地 址 为 前 提 。 然 而 ，8086 除了 使 用 偶 对 齐 的 字 之 外 ， 也 允许 使 用 奇 对 齐 的 字 。 若 存 取 一 个 
奇 对 齐 的 字 ， 则 传送 一 个 字 需 要 两 个 存储 器 周期 ， 每 个 存储 器 周期 由 4 个 时 钟 周期 组 成 。 考 虑 一 条 涉 
及 两 个 16 位 操作 数 的 8086 指令 ， 取 这 些 操作 数 需 用 多 少时 间 ? 给 出 可 能 答案 的 范围 。 假 定时 钟 速率 
是 4MHz 和 无 等 待 状态 。 

3.17 考虑 一 个 32 位 的 微 处 理 器 ， 其 总 线 周 期 与 一 个 16 位 微 处 理 器 的 总 线 周 期 相同 。 假 定 ， 平 均 而 言 ， 
20% 的 操作 数 和 指令 是 32 位 长 ，40% 的 为 16 位 长 ， 其 余 40% 的 为 8 位 长 。 请 计算 ， 此 32 位 微 处 理 
器 取 指 令 或 操作 数 时 所 实现 的 性 能 改进 。 

3.18 ”如 习题 3.14 的 微 处 理 器 ， 它 正在 执行 一 条 增 量 存储 器 直接 指令 。 若 在 取 操 作 数 步骤 开始 的 同时 ， 键 
盘 激 活 了 一 条 中 断 请 求 线 ， 假 定 总 线 时 钟 速率 是 10MHz 则 该 处 理 器 多 长 时 间 之 后 才 进 入 中 断 处 理 
周期 ? 

3.19 MH PCI 写 操作 的 时 序 图 ， 并 解释 之 (与 图 3-23 相似 ) 。 


附录 SA ”时 序 图 

在 本 章 中 ， 时 序 图 用 于 表示 事件 序列 和 事件 之 间 的 依赖 关系 。 对 于 不 熟悉 时 序 图 的 读者 ， 本 附录 提供 
了 简单 的 解释 。 

连接 到 总 线 上 的 设备 之 间 的 通信 ， 通 过 一 组 能 够 传递 信号 的 线 来 实现 。 这 些 线 可 以 传送 两 种 不 同 的 信 
号 级 别 〈 电 压 级 别 ， 电 平 ) ， 分 别 代表 二 进 制 的 0 和 1。 时 序 图 能 够 将 线 上 的 信号 电 平 作为 时 间 的 函数 来 表 
示 (如 图 3-27a 所 示 ) 。 习 惯 上 ， 二 进 制 1 用 比 二 进 制 0 高 的 电 平 表示 。 通 常 ， 二 进 制 0 是 默认 值 ， 也 就 是 
说 ， 如 果 不 传输 数据 和 其 他 信号 ， 则 线 上 的 电 平 代表 二 进 制 0。 一 个 从 0 到 1 的 信号 转变 一 般 称 为 信号 上 升 
% (leading edge), MIM 1 到 0 的 转变 称 为 下 降 沿 (trailing edge) 。 这 种 转变 不 是 瞬间 发 生 的 ， 但 其 转变 时 
间 与 信号 的 持续 时 间 相 比 通常 非常 小 。 为 清晰 起 见 ， 通 常 将 该 转变 画 成 一 条 带 角 的 线 ， 但 该 线 夸大 了 转变 
实际 花费 的 时 间 。 偶 尔 ， 你 会 看 到 使 用 垂直 线 画 的 图 ， 这 并 不 建议 认为 信息 的 转变 是 瞬间 发 生 的 。 时 序 图 
中 ， 在 我 们 感 兴趣 的 事件 之 间 可 能 要 经 过 一 段 变化 的 或 至 少 与 问题 无 关 的 时 间 ， 用 时 间 线 上 的 一 条 间 辽 来 
表示 。 

信号 有 时 成 组 表示 ( 如 图 3-27b 所 示 ) 。 例 如 ， 如 果 一 次 传送 一 个 字 节 的 数据 ， 则 需要 8 条 线 。 通 常 ， 
我 们 只 想 知道 信号 是 否 出 现 ， 而 这 一 组 线 中 确切 的 值 对 我 们 并 不 重要 。 

一 条 线 上 的 信号 跳 变 可 能 触发 与 之 相连 的 设备 改变 其 他 线 上 的 信号 。 例 如 ， 如 果 存 储 器 模块 检测 到 一 
个 读 控 制 信号 (0 或 1 跳 变 ) ， 它 将 把 数据 信号 放 到 数据 线 上 ， 这 样 的 因果 关系 产生 了 事件 的 序列 。 时 序 图 
上 的 箭头 用 于 表示 它们 的 依赖 关系 (如 图 3-27c 所 示 ) 。 

在 图 3-27c 中 ， 信 号 名 称 上 的 横 线 条 表示 该 信号 低 电 平 有 效 。 例 如 ，Command 在 0 伏特 是 有 效 ， 这 意味 
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着 Command =0 表示 逻辑 1 RA, 


时 钟 线 通 常 是 系统 总 线 的 一 部 分 。 一 个 时 钟 电路 接 到 时 钟 线 上 并 提供 重复 的 、 规 则 的 跳 变 序列 (如 图 
3-27d 所 示 ) 。 其 他 事件 可 能 与 时 钟 信号 保持 同步 。 
一 进 制 ] 
= py TL 
上 升 沿 下 降 沿 t 一 一 
时 间 间 阶 。 。 时间 
a) 信号 作为 时 间 函 数 








所 有 线 都 为 0 每 条 线 可 是 0 或 1 所 有 线 都 为 0 


b) 一 组 信号 线 


c) 因果 触发 关系 


at af Af er k 
d 时 钟 信号 


图 3-27 MARA 
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cache 存储 器 


本 章 要 点 

。 计算 机 的 存储 器 被 组 织 成 层次 结构 。 最 顶层 〈 最 靠近 处 理 器 的 一 层 ) 是 处 理 器 内 的 寄存 
器 。 接 下 来 是 一 级 或 多 级 的 高 速 缓 存 ， 当 使 用 多 级 cache 时 ， 它 们 分 别 标记 为 L1、L2 等 。 
再 往 下 的 是 主 存 ， 它 通常 由 动态 随机 存 取 存储 器 (DRAM) 构成 ， 所 有 这 些 都 被 认为 是 
系统 内 部 的 存储 器 。 存 储 层 次 继续 划分 外 部 存储 器 ， 下 一 层 通常 是 固定 硬盘 ， 再 往 下 的 
是 可 装卸 的 存储 设备 ， 如 光盘 、 磁 带 机 等 。 
沿 着 存储 器 层次 结构 自 顶 向 下 ， 存 储 器 成 本 也 逐 层 下 降 ， 其 容量 在 变 大 ,而 存 取 时 间 在 
变 长 。 只 使 用 最 快 的 存储 器 当然 好 ， 但 是 它 也 是 最 昂贵 的 ， 因 此 我 们 通过 使 用 更 多 较 慢 
的 存储 器 ， 以 便 达 到 存 取 时 间 与 成 本 之 间 的 均衡 。 其 中 的 技巧 是 ， 在 存储 器 中 恰当 地 组 
织 程序 和 数据 ， 使 需要 存 取 的 数据 通常 在 较 快 的 存储 器 中 。 
通常 ， 处 理 器 将 要 访问 的 主 存 位 置 极 有 可 能 是 刚 被 访问 过 的 或 其 临近 的 位 置 ， 所 以 cache 
(高 速 缓存 ) 会 自动 地 保存 一 些 来 自 近 期 被 使 用 过 的 DRAM 字 的 副本 。 如 果 cache 设计 得 
合理 ， 那 么 大 多 数 时 候 处 理 器 所 需要 的 存储 器 数据 便 已 经 在 cache 中 。 

计算 机 的 存储 器 虽然 从 概念 上 来 看 比较 简单 ， 但 是 从 计算 机 系统 的 类 型 、 技 术 、 组 织 、 性 能 
和 价格 几 方 面 的 特点 来 看 ， 存 储 器 的 范围 或 许 是 最 广 的 。 目 前 没有 一 种 最 佳 的 能 满足 计算 机 系 
统 对 存储 器 需求 的 技术 。 所 以 ,计算 机 系统 通常 配备 分 层 结构 的 存储 子 系统 ， 一 些 在 系统 内 部 
(由 处 理 器 直接 存 取 ) ， 一 些 在 系统 外 部 (处 理 器 通过 IO 模块 存 取 ) 。 

本 章 和 下 一 章 将 重点 论述 系统 内 部 存储 器 部 件 ， 而 第 6 章 将 专门 论述 外 部 存储 器 。 本 章 首 先 
介绍 计算 机 存储 器 的 关键 特性 ， 剩 余部 分 讨论 所 有 当代 计算 机 系统 所 必 备 的 部 件 一 一 cache 存 
储 器 。 


4.1 计算 机 存储 系统 概述 


4.1.1 存储 系统 的 特性 


如 果 我 们 按照 关键 特性 对 存储 系统 进行 分 类 ， 那 么 计算 机 存储 器 的 复杂 问题 就 会 变 得 更 易 
于 管理 ， 表 4-1 列 出 了 存储 系统 最 重要 的 一 些 特性 。 





表 4-1 计算 机 存储 系统 的 关键 特性 


























存储 位 置 内 部 (如 寄存 器 、 主 存 、cache) ， 外 部 〈 如 光盘 、 磁 盘 、 磁 带 ) 
容量 FR, TTA 

传送 单元 F, 块 

存 取 方 法 顺序 存 取 ， 直 接 存 取 ， 随 机 存 取 ， 关 联 存 取 

性 能 存 取 时 间 ， 周 期 时 间 ， 传 输 率 

物理 类 型 半导体 ， 磁 介质 ， 光 介质 ， 磁 - 光 介 质 

物理 特性 易 失 性 / 非 易 失 性 ， 可 擦 除 /不 可 擦 除 

组 织 存储 模块 








存储 位 置 是 指 存储 器 处 于 计算 机 的 内 部 或 外 部 。 内 部 存储 器 通常 指 主 存 ， 但 还 有 其 他 形式 。 
处 理 器 需要 有 自己 的 局 部 存储 器 ， 它 们 以 寄存 器 的 形式 存在 〈 如 图 2-3 所 示 )。 进 一 步 ， 我们 就 
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会 明白 处 理 器 的 控制 器 部 分 也 需要 有 自己 的 内 部 存储 器 。 我 们 将 在 后 面 章节 对 这 两 类 存储 器 进 
行 分 别 讨论 。cache 是 内 存 存 储 器 的 另 一 种 形式 。 外 部 存储 器 由 外 围 存储 设备 (如 磁盘 、 磁 带 
等 ) 组 成 ， 处 理 器 可 以 通过 LO 控制 器 访问 它们 。 
存储 器 的 一 个 明显 特性 是 存储 容量 (capacity ) 。 对 于 内 部 存储 器 ， 存 储 容量 通常 用 字 节 (1 
字 节 =8 位 ) 或 字 来 表示 ， 普 通 的 字 长 为 8 位 、16 位 或 32 位 。 外 部 存储 器 的 存储 容量 通常 也 用 
字 节 来 表示 。 
一 个 与 之 相关 的 概念 是 传输 单元 (unit of transfer) 。 对 于 内 部 存储 器 ， 传 输 单 元 等 同 于 输入 
和 输出 到 存储 器 模块 的 数据 线 数 ， 它 等 于 字 长 ， 但 通常 更 大 ， 如 64 位 、128 位 或 256 位 。 为 了 说 
明 这 一 点 ,我 们 引入 三 个 与 内 部 存储 器 相关 的 概念 : 
oS: 存储 器 组 织 的 “自然 ”单元 。 字 长 通常 与 一 个 整数 的 数据 位 数 和 指令 长 度 相等 ,但 
也 有 很 多 例外 。 例 如 ，CRAY C90 (一 种 较 老 的 模型 CRAY 超级 计算 机 ) 有 64 位 的 字 长 ， 
但 它 用 46 位 表示 整数 。 而 Intel x86 体系 结构 有 各 种 指令 长 度 ， 用 多 个 字 节 表示 ,但 其 机 
器 的 字 长 为 32 位 。 
e 可 寻 址 单元 : 在 某 些 系统 中 ， 可 寻 址 单元 是 字 ， 但 许多 系统 允许 在 字 节 级 上 寻 址 。 在 任 
何 情况 下 ， 地 址 位 长 度 4 和 可 寻 址 的 单元 数 N 之 间 的 关系 为 : 2” = N。 
e 传输 单元 : 对 于 主 存储 器 ， 这 是 指 每 次 读 出 或 写 入 存储 器 的 位 数 。 传 输 单元 不 必 等 于 一 
个 字 或 一 个 可 寻 址 单元 。 对 于 外 部 存储 器 ， 数 据 的 传送 经 常 是 以 比 一 个 字 大 得 多 的 单元 
来 传送 ， 这 就 是 所 谓 的 块 。 
不 同 种 类 的 存储 器 之 间 的 另 一 个 区 别 是 数据 单元 的 存 取 方 法 (method of accessing) 不 同 ， 存 
取 方 法 包括 如 下 四 类 : 
© 顺序 存 取 : 存储 器 组 织 成 许多 称 为 记录 的 数据 单元 ， 它 们 以 特定 的 线性 序列 方式 存 取 。 
存储 的 地 址 信息 用 于 分 隔 记 录 和 帮助 索引 。 采 用 共享 读 - 写 结构 ， 经 过 一 个 个 的 中 间 记 
录 ， 从 当前 的 存储 位 置 移动 到 所 要 求 的 位 置 ， 因 此 ， 存 取 不 同 记录 的 时 间 相 差 很 大 。 第 6 
章 中 讨论 的 磁带 机 采用 的 是 顺序 存 取 方式 。 
。 直接 存 取 : 同 顺序 存 取 一 样 ， 直 接 存 取 也 采用 了 共享 读 - 写 结构 。 但 是 ， 单 个 块 或 记录 有 
基于 物理 存储 位 置 的 唯一 地 址 。 通 过 采用 直接 存 取 到 达 所 需 的 块 处 ， 然 后 在 块 中 顺序 搜 
索 、 计 数 或 等 待 ， 最 终 到 达 所 要 求 的 位 置 。 同 样 ， 存 取 不 同 记录 的 时 间 相 差 很 大 。 第 6 
章 中 讨论 的 磁盘 机 系统 采用 的 是 直接 存 取 方 式 。 
。 随机 存 取 : 存储 器 中 每 一 个 可 寻 址 的 存储 位 置 有 唯一 的 物理 编排 的 寻 址 机 制 。 存 取 给 定 
存储 位 置 的 时 间 是 固定 的 ， 不 依赖 于 前 面 存 取 的 序列 。 因 此 ， 任 何 存储 位 置 可 以 随机 选 
取 、 直 接 寻 址 和 存 取 。 主 存 和 某 些 高 速 缓存 系统 采用 随机 存 取 方 式 。 
。 关联 存 取 : 这 是 一 个 随机 存 取 类 的 存储 器 ， 它 允许 对 一 个 字 中 的 某 些 指定 位 进行 检查 比 
较 ， 看 是 否 与 特定 的 样式 相 匹配 ， 而 且 能 同时 在 所 有 字 中 进行 。 因 此 ， 字 是 通过 它 的 内 
容 而 不 是 它 的 地 址 进行 检索 。 与 普通 的 随机 存 取 存 取 器 相同 ， 每 个 存储 位 置 有 自己 的 寻 
址 机 制 ， 并 且 检 索 时 间 是 固定 的 ， 不 依赖 于 存储 位 置 或 前 面 的 存 取 方式 。 高 速 缓存 可 以 
采用 关联 存 取 。 
从 用 户 的 观点 来 看 ， 存 储 器 两 种 最 重要 的 特性 是 容量 和 性 能 (performance), ， 通 常 需 要 考虑 
3 种 性 能 参数 : 
。 存 取 时 间 (HEIR): 对 于 随机 存 取 存 储 器 ， 这 是 执行 一 次 读 或 写 操作 的 时 间 ， 即 从 地 址 传 
送 给 存储 器 的 时 刻 到 数据 已 经 被 存储 或 使 用 为 止 所 花 的 时 间 。 而 对 于 非 随机 存 取 存储 器 ， 
存 取 时 间 是 把 读 - 写 结构 定位 到 所 需要 的 存储 位 置 所 花费 的 时 间 。 
° 存储 周期 时 间 : 这 个 概念 主要 用 于 随机 存 取 存 储 器 ， 它 是 存 取 时 间 加 上 下 一 次 存 取 开始 
之 前 所 需要 的 附加 时 间 。 这 里 附加 时 间 用 于 瞬 变 的 信和 号 消失 或 数据 破坏 性 读 后 的 再 生 。 
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需要 注意 ， 存 储 周期 时 间 是 与 系统 总 线 有 关 ， 而 不 是 与 处 理 器 相关 。 
。 传输 率 : 这 是 数据 传人 或 传 出 存储 单元 的 速率 。 对 于 随机 存 取 存储 器 ， 它 等 于 “1/ 周 期 
时 间 ”。 而 对 于 非 随机 存 取 存 储 器 ， 有 下 列 关系 : 


Ty =T,+— (4.1) 


R 
其 中 : 7, = 读 或 写 和 位 的 平均 时 间 
T, = 平均 存 取 时 间 
n= 位 数 
R= 传输 率 ， 单 位 为 b/s (位 / 秒 ) 
存储 器 有 许多 种 物理 类 型 ， 目 前 最 常用 的 有 半导体 存储 器 、 用 于 磁盘 和 磁带 的 磁 表面 存储 
器 以 及 光学 和 磁 - 光 存储 器 。 
数据 存储 的 几 个 物理 特性 很 重要 。 在 易 失 性 存储 器 中 ， 当 电源 开关 断 开 时 ,信息 自动 衰减 或 
丢失 。 而 在 非 易 失 性 存储 器 中 ， 信 息 一 旦 记录 ， 就 会 保留 到 下 一 次 有 意 改变 它 时 为 止 ， 不 需要 电 
源 来 维持 信息 。 磁 表面 存储 器 是 非 易 失 性 的 。 半 导体 存储 器 可 以 是 易 失 性 的 ， 也 可 以 是 非 易 失 性 
的 。 不 可 擦 除 存 储 器 不 能 修改 ， 除 非 破坏 存储 单元 ， 这 种 类 型 的 半导体 存储 器 被 称 为 只 读 存储 器 
(ROM) 。 当 然 ， 不 可 擦 除 存 储 器 也 必定 是 非 易 失 性 的 。 
对 于 随机 存 取 存储 器 ， 存 储 单元 的 组 织 是 一 个 关键 的 设计 问题 。 组 织 的 意思 指 通 过 物理 排 
列 位 来 形成 字 。 如 第 5 章 介 绍 的 那样 ， 并 不 总 是 使 用 简单 的 排列 。 


4.1.2 存储 器 层次 结构 


计算 机 中 存储 器 的 设计 限制 可 以 归纳 为 3 个 问题 : 容量 有 多 大 ? 速度 有 多 快 ? 价格 有 多 贵 ? 

容量 大 小 似乎 并 没有 限制 ， 不 管 容量 多 大 ， 总 要 开发 应 用 程序 去 使 用 它 。 速 度 多 快 的 问题 从 
某 种 意义 上 来 说 更 容易 回答 。 为 了 获得 最 佳 性 能 ， 存 储 器 的 速度 必须 能 够 跟 上 处 理 器 的 速度 。 也 
就 是 说 ， 当 处 理 器 在 执行 指令 时 ， 我 们 并 不 期 望 它 因为 等 待 指令 或 操作 数 而 暂停 执行 。 最 后 一 个 
问题 也 必须 考虑 。 对 于 实用 系统 ， 存 储 器 的 价格 相对 于 其 他 组 件 来 说 必须 是 合理 的 。 

正如 我 们 所 预料 的 ， 在 存储 器 的 3 个 关键 特性 即 容 量 、 存 取 时 间 和 价格 之 间 需 要 进行 权衡 。 
用 来 实现 存储 系统 的 技术 有 多 种 ， 在 这 一 系列 的 技术 中 都 存在 如 下 关系 : 

o FRIERE, 平均 每 位 的 花费 就 

越 大 。 
。 存储 容量 越 大 , 平均 每 位 的 花费 就 
越 小 。 

。 存储 容量 越 大 ， 存 取 时 间 就 越 长 。 

设计 者 面临 进退 两 难 的 局 面 是 明显 
的 。 设 计 者 想 要 使 用 存储 器 技术 提供 大 容 
量 的 存储 器 ， 因 为 这 既 满 足 容量 的 要 求 ， 
也 使 每 位 的 价格 低 。 然 而 ,为 了 满足 性 能 
的 要 求 ， 设 计 者 又 不 得 不 使 用 昂贵 的 、 相 
对 来 说 容量 较 小 而 存 取 速 度 较 快 的 存储 器 。 

解决 这 个 难题 的 办 法 不 是 只 依赖 单一 
的 存储 部 件 或 技术 ， 而 是 采用 存储 器 层次 
结构 (memory hierarchy), K] 4-1 给 出 了 一 
种 典型 的 层次 结构 ， 随 着 层次 的 下 降 ， 我 
们 会 发 现 : 图 4-1 存储 器 层次 结构 
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(a) 每 位 价格 下 降 ; 

(b) 容量 增 大 ; 

(e) 存 取 时 间 变 长 ; 

(d) 处 理 器 访问 存储 器 的 频率 降低 。 

因此 ， 容 量 较 小 、 价 格 较 贵 、 速 度 较 快 的 存储 器 可 作为 容量 较 大 、 价 格 较 便宜 、 速 度 较 
慢 的 存储 器 的 补充 。 这 种 组 织 方法 要 取得 成 功 的 关键 是 最 后 一 项 〈(d) ， 即 降低 访问 频率 。 我 
们 将 在 本 章 后 面部 分 讨论 cache 和 第 8 章 讨论 虚拟 存储 器 时 详细 介绍 这 个 概念 ， 这 里 只 做 简单 
解释 。 

例 4.1 假设 处 理 器 支持 二 级 存储 器 结构 。 第 一 级 存储 器 包含 1000 字 ， 存 取 时 间 为 0.01hsi 
第 二 级 存储 器 包含 100 000 字 ， 存 取 时 间 为 0.1hs。 假 定 要 访问 的 字 在 第 一 级 存储 器 中 ， 则 处 理 
器 能 直接 对 它 进行 存 取 。 如 果 字 在 第 二 级 存储 器 中 ， 那么 该 字 将 首先 被 传送 到 第 一 级 ， 然 后 处 理 
器 再 对 它 进行 存 取 。 为 了 使 问题 简化 ， 我 们 忽略 处 理 器 用 来 判断 要 访问 的 字 在 哪 一 级 所 需要 的 
时 间 。 图 4-2 给 出 包含 此 问题 的 曲线 的 基本 形状 , 该 图 显示 了 二 级 存储 器 结构 下 平均 存 取 时 间 和 
命中 率 甩 之 间 的 函数 关系 ， 其 中 万 被 定义 为 在 较 快 存储 器 (如 cache) 中 完成 的 存 取 占 所 有 存储 
器 存 取 的 百分比 ，7, 是 访问 第 一 级 存储 器 所 需要 的 时 间 ， 而 T, 为 访问 第 二 级 存储 器 所 需要 的 时 
间 9。 可 以 看 出 ， 在 第 一 级 存储 器 中 的 访问 百分比 越 高 ， 总 的 平均 访问 时 间 就 越 接近 访问 第 一 级 
存储 器 所 需要 的 时 间 ， 而 不 是 第 二 级 的 时 间 。 

在 此 例 中 ,假设 95% 的 存储 器 访问 都 可 以 在 cache 中 找到 ， 那 么 平均 访问 一 个 字 的 时 间 可 以 
表示 为 : 

(0.95) (0. 0lps) +(0.05)(0.01hs +0. lps) =0.0095 +0.0055 =0.015hus 

正如 我 们 所 期 望 的 ， 平 均 访问 时 间 更 接近 于 0.01hs， 而 不 是 0.1hs。 

从 原理 上 讲 ， 使 用 二 级 存储 器 可 以 减少 平均 存 取 
时 间 ， 但 此 时 要 求 条 件 (a) 到 条 件 (d) 都 满足 。 Th 
通过 采用 各 种 技术 ， 出 现 了 一 系列 满足 条 件 (a) 到 Po 
条 件 (c) 的 存储 系统 ， 幸 运 的 是 , 条 件 (d) OP 
也 能 满足 。 ia 

条 件 (d) 有 效 的 基础 是 访问 的 局 部 性 原理 
[DENN68] 。 在 程序 执行 的 过 程 中 ， 处 理 器 倾向 于 成 
(GR) 地 访问 存储 器 中 的 指令 和 数据 。 程 序 通常 包 
含 许多 迭代 循环 和 子 程序 。 一 旦 进入 一 个 循环 或 子 程 
序 ， 则 会 重复 访问 一 小 组 指令 。 同 样 ， 对 于 表 和 数组 ” “" 
的 操作 包含 存 取 一 簇 簇 的 数据 。 在 一 段 较 长 的 时 间 
中 ， 使 用 的 簇 是 变动 的 ， 但 在 一 小 段 时 间 内， 处 理 器 0 
主要 访问 存储 器 中 的 固定 秘 。 存 取 只 涉及 第 一 级 的 百分比 (命中 率 ) 

因此 ， 通 过 层次 结构 组 织 数据 ， 有 可 能 使 访问 较 ”图 42 只 包含 第 一 级 的 存 取 性 能 (命中 率 ) 
低层 存储 器 的 百分比 低 于 访问 其 上 层 存 储 器 的 百 分 
比 。 考 虑 前 面 已 给 出 的 二 级 存储 器 的 例子 ， 让 第 二 级 存储 器 包含 所 有 程序 指令 和 数据 。 当 前 簇 可 
以 临时 调 人 第 一 级 存储 器 。 有 时 ， 第 一 级 中 的 某 个 能 将 不 得 不 被 交换 回 第 二 级 存储 器 ， 以 便 为 所 
需要 的 新 簇 腾 出 空间 。 然 而 , 平均 来 说 ,处理 器 大 部 分 是 对 第 一 级 中 的 指令 和 数据 进行 访问 。 


平均 存 取 时 间 








© 如 果 被 访问 的 字 在 较 快 速 的 存储 器 中 找到 ， 则 被 定义 为 命中 (hit) 。 如 果 被 访问 的 字 在 较 快 速 的 存储 器 中 找 不 到 ， 
则 发 生 缺 失 (miss), 
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这 一 原理 可 以 应 用 于 多 级 存储 系统 。 如 图 4-1 所 示 的 层次 结构 所 建议 的 一 样 ， 速 度 最 快 、 容 
量 最 小 而 价格 最 高 的 存储 器 是 处 理 器 内 的 寄存 器 。 通 常 ， 一 个 处 理 器 包含 几 十 个 这 样 的 寄存 
器 ， 但 也 有 一 些 机 器 包含 数 百 个 寄存 器 。 下 跳 两 层 是 主 存储 器 ， 它 是 计算 机 中 主要 的 内 存 系 
统 ， 主 存 中 的 每 个 存储 位 置 都 有 唯一 的 地 址 。 主 存 通常 用 更 快速 度 、 更 小 容量 的 cache 对 其 进 
行 扩充 。cache 对 于 程序 员 乃 至 处 理 器 来 说 是 透明 的 ， 它 在 主 存 和 寄存 器 之 间 分 段 传送 数据 以 
提高 性 能 。 

上 面 所 介绍 的 三 种 形式 的 存储 器 通常 都 是 易 失 性 存储 器 ， 普 遍 采 用 半导体 技术 。 这 3 层 存 储 
器 的 使 用 导致 了 各 种 类 型 的 半导体 存储 器 的 开发 ， 它 们 的 速度 和 价格 各 不 相同 。 数 据 在 各 种 外 
部 的 、 大 容量 的 存储 设备 上 能 存储 得 更 持久 ， 最 常用 的 是 硬盘 和 可 移动 媒体 ， 如 可 移动 磁盘 、 磁 
带 和 光 存 储 器 。 外 部 非 易 失 性 存储 器 也 称 为 辅助 存储 器 或 辅 存 (secondary memory 或 auxiliary 
memory) ， 它 们 常用 于 存储 程序 和 数据 文件 ， 以 文件 或 记录 的 形式 而 不 是 以 一 个 一 个 的 字 节 或 字 
的 形式 为 程序 员 所 使 用 。 磁 盘 也 可 以 用 于 主 存储 器 的 扩展 ， 称 为 虚拟 存储 器 ， 这 将 在 第 8 章 中 
讨论 。 

层次 结构 中 还 包含 其 他 形式 的 存储 器 。 例 如 ，IBM 大 型 机 通常 包含 了 一 种 称 作为 扩展 存储 器 
的 内 存储 器 ， 它 采用 一 种 比 主 存储 器 要 慢 且 更 便宜 的 半导体 技术 。 严 格 来 讲 ， 这 种 存储 器 不 列 人 
层次 结构 中 ， 而 只 是 一 个 分 支 : 数据 可 以 在 主 存 和 扩展 存储 器 之 间 进 行 传送 ， 但 不 能 在 扩展 存储 
器 和 外 存储 器 之 间 进行 传送 。 其 他 形式 的 辅 存 包括 光盘 和 “ 磁 - 光 盘 ” 设 备 。 最 后 ， 可 以 在 层次 
结构 中 以 软件 形式 有 效 地 加 入 附加 层 。 主 存储 器 中 的 一 部 分 可 用 做 缓冲 区 ， 和 暂时 保存 写 入 人 磁盘 
中 的 数据 ， 这 种 技术 有 时 称 为 磁盘 高 速 缓存 ” ， 它 用 两 种 方法 改进 性 能 : 

© 磁盘 写 信 是 以 簇 的 形式 进行 的 。 一 次 传输 的 数据 量 较 大 ， 而 不 是 很 多 次 小 的 数据 传送 ， 

这 改善 了 磁盘 的 性 能 ,减少 了 对 处 理 器 的 占用 。 
o 某 些 指定 输出 的 数据 在 转 存 到 磁盘 之 前 可 被 程序 访问 。 这 样 ， 可 以 快速 地 从 软件 高 速 组 
存 中 检索 ， 而 不 是 从 相对 较 慢 的 磁盘 中 检索 。 
附录 4A 论述 了 多 级 存储 器 结构 对 性 能 的 影响 。 


4.2 cache 存储 器 原理 


cache (高 速 缓存 ) 存储 器 的 目的 是 使 存储 器 的 速度 允 近 可 用 的 最 快 存储 器 的 速度 ， 同 时 以 
较 便 宜 的 半导体 存储 器 的 价格 提供 一 个 大 的 存储 器 容量 。 图 4-3a 说 明了 这 一 概念 ， 图 中 有 一 个 
相对 大 而 慢 的 主 存 ， 加 之 一 个 小 而 快 的 cache。 块 传送 
cache 中 存放 了 主 存储 器 的 部 分 副本 。 当 CPU ist kar il rasa 
图 访问 主 存 中 的 某 个 字 时 ， 首先 检查 这 个 字 是 F 
否 在 cache 中 ， 如 果 是 ， 则 把 这 个 字 传 送 给 
CPU; 如 果 不 是 ， 则 将 主 存 中 包含 这 个 字 固 定 大 
小 的 块 读 和 人 cache 中 ， 然 后 再 传送 该 字 给 CPU, 
因为 访问 的 局 部 性 ， 当 把 某 一 块 数据 存 人 cache， 
以 满足 某 次 存储 器 的 访问 时 ，CPU 将 来 还 很 有 
可 能 访问 同一 存储 位 置 或 该 数据 块 中 的 其 他 字 。 

图 4-3b 描述 了 多 级 cache MHA, Hp, 3% 
二 级 cache 比 第 一 级 cache 要 慢 ， 但 通常 存储 容 
ERKA; 而 第 三 级 cache 比 第 二 级 cache 慢 ， 但 eles cache le 
通常 存储 容量 要 大 。 





b) 三 级 cache 组 织 





O 磁盘 高 速 缓存 通常 是 一 种 纯 软 件 ， 在 本 书 中 不 作 详细 说 明 。 详 细 解 释 可 参见 [STAL], 
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图 4-4 描述 了 cache/ 主 存 系统 的 结构 。 主 存储 器 由 多 达 2" 个 可 寻 址 的 字 组 成 ， 每 一 个 字 有 
唯一 的 二 位 地 址 。 为 了 实现 映射 ， 我 们 将 主 存储 器 看 成 是 由 许多 定 长 的 块 组 成 ， 每 块 有 天 个 字 。 
HA M =2"*/ 开 个 块 。 而 cache AA mR, PRYETT®, ， 每 行 包 括 玉 个 字 和 几 位 标记 。 每 行 还 包括 
控制 位 〈 图 中 没有 给 出 ) ， 如 用 作 判 断 装 入 cache 中 的 行 是 否 被 修改 的 控制 位 。 行 的 长 度 ， 不 包 
含 标 记 和 控制 位 ， 称 为 行 大 小 (line size) 。 行 大 小 可 以 小 到 32 位 ， 其 每 个 “ 字 ” 就 是 单个 字 节 ， 
此 时 ， 行 大 小 是 4 个 字 节 。 行 的 数量 远 远 小 于 主 存 储 器 块 的 数目 (mM), (EE, RAE 
存储 器 块 的 子 集 驻 留 在 cache 行 中 。 如 果 要 读 取 主 存储 器 块 中 的 某 个 字 ， 则 包含 该 字 的 块 将 被 传 
送 到 cache 的 一 个 行 中 。 由 于 块 数 多 于 行 数 ， 所 以 单个 行 不 可 能 永久 地 被 某 块 专用 。 因 此 ， 每 行 
都 有 一 个 标记 (tag) ， 用 来 识别 当前 存储 的 是 哪 一 块 。 这 个 标记 通常 是 主 存储 器 地 址 的 一 部 分 ， 
这 将 在 本 节 后 面 加 以 讨论 。 

| 


人 (K 字 ) 





行 号 
of 





KE kA) 


a) cache 





b) EF 


图 4-4 ”cache/ 主 存 结 构 


图 4-5 说 明了 一 个 读 操作 。 处 理 器 产生 一 个 要 读 取 字 的 地 址 RA， 如 果 这 个 字 在 cache 中 ， 则 
把 它 直 接 传送 给 处 理 右 。 否 则 ， 将 包含 这 个 字 的 块 装 入 cache 中 ， 然 后 再 传送 给 CPU。 图 4-5 表 
示 ， 最 后 两 步 操 作 是 并 行进 行 的 ， 这 在 图 4-6 所 示 的 当代 cache 经 典 组 织 中 有 所 反映 。 在 这 种 组 
织 结构 中 ，cache 经 数据 线 、 控 制 线 和 地 址 线 连接 到 处 理 器 ,数据 线 和 地 址 线 也 分 别 与 数据 缓冲 
器 和 地 址 缓冲 器 相连 ， 这 些 缓冲 器 都 接 到 系统 总 线 上 ， 从 而 与 主 存 连 接 。 当 cache 命中 时 ， 数 据 
和 地 址 缓冲 器 都 不 启用 ， 通 信和 只 在 处 理 器 和 cache 之 间 进 行 ， 此 时 系统 总 线 上 没有 信号 传输 。 当 
cache 未 命中 时 ， 所 需求 的 地 址 被 加 载 到 系统 总 线 上 ， 数 据 通过 数据 缓冲 器 提交 给 cache 和 
CPU。 在 其 他 的 组 织 结构 中 ， 通 过 所 有 数据 线 、 地 址 线 和 控制 线 ，cache 直接 介 于 处 理 器 和 主 
存 之 间 ， 在 这 种 情况 下 ， 当 cache 未 命中 时 ， 要 读 取 的 字 先 被 装 入 cache， 然 后 再 由 cache 传送 
给 CPU。 

有 关 使 用 cache 的 性 能 参数 讨论 可 参见 附录 4A。 





日 为 了 定义 cache 的 基本 单位 ， 使 用 了 术语 “ 行 ”(line) ， 而 不 是 术语 “ 块 ”(block) ， 出 于 两 个 原因 : (1) 为 了 避 
免 与 主 存储 器 的 块 混淆 ， 一 个 主 存 块 包含 的 数据 字数 与 一 个 cache 行 的 相同 ; (2) 因为 一 个 cache 行 不 仅 包含 了 天 
个 数据 字 〈 正 如 主 存 块 一 样 ) ， 而 且 它 还 包含 标记 和 控制 位 。 
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图 4-5 cache 读 操 作 


4.3 cache 的 设计 要 素 
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数据 
图 4-6 典型 的 cache 组 织 


本 节 给 出 了 cache 设计 参数 的 概述 并 报告 了 某 些 典型 结论 。 我 们 偶尔 会 谈 及 cache 在 高 性 能 


计算 (high-performance computing, HPC) 中 的 
使 用 。HPC 涉及 超级 计算 机 ( supercomputer ) 
和 超级 计算 机 软件 ， 主 要 应 用 于 科学 计算 ， 因 
为 这 类 应 用 中 包含 了 大 量 的 数据 、 向 量 和 和 矩阵 
的 计算 ,以 及 并 行 算法 的 使 用 。 为 HPC 设计 的 
cache 与 为 其 他 硬件 平台 和 应 用 所 设计 的 cache 
是 非常 不 同 的 。 的 确 ， 许 多 研究 人 员 已 经 发 现 
HPC 应 用 在 使 用 了 cache 的 计算 机 体系 结构 上 
性 能 会 变 差 [ BAIL93 ] 。 而 男 一 些 研 究 人 员 也 
已 指出 ， 如 果 应 用 软件 适合 使 用 cache， 那 么 
cache 层次 将 对 改善 性 能 很 有 帮助 [ WANG99， 
PRESO1]°, 

尽管 已 有 大 量 的 cache 实现 方案 , 但 只 有 
几 个 基本 要 素 用 于 区 别 和 分 类 cache 的 体系 结 
构 ， 表 4-2 列 出 了 关键 的 要 素 。 


4.3.1 cache 地 址 


表 4-2 cache 的 设计 要 素 


cache 地 址 写 策略 

逻辑 地 址 写 直达 法 

物理 地 址 写 回 法 
cache 容量 写 一 次 
映射 功能 行 大 小 

直接 cache 数目 

全 相 联 一 级 或 两 级 

组 相 联 统一 或 分 离 
替换 算法 

最 近 最 少 使 用 (LRU) 

先进 先 出 (FIFO) 

最 不 经 常 使 用 (LFU) 





随机 


几乎 所 有 的 非 嵌入 式 处 理 器 以 及 很 多 敌人 式 处 理 器 都 支持 虚拟 内 存 。 虚 拟 内 存 的 概念 将 在 
第 8 章 中 讨论 。 本 质 上 讲 ， 虚 拟 内 存 是 一 种 内 存 扩充 技术 ， 这 种 技术 不 会 使 主 存 物理 地 址 空间 大 
小 发 生 改 变 ， 但 允许 程序 在 逻辑 上 访问 更 多 的 地 址 。 当 使 用 虚拟 内 存 时 ， 机 器 指令 的 地 址 域 包含 
虚拟 地 址 。 为 了 从 主 存 中 进行 读 写 操作 ， 硬 件 存储 器 管理 单元 (MMU) 将 每 个 虚拟 地 址 翻译 成 


主 存 中 的 物理 地 址 。 





O AX HPC 的 一 般 讨 论 ， 请 参见 [DOWD98 ] 。 
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当 使 用 虚拟 地 址 时 ， 系 统 设 计 人 员 可 能 选择 将 cache 置 于 处 理 器 和 MMU 之 间 ， 或 者 置 于 
MMU 和 主 存 之 间 ， 如 图 4-7 Bra. 2 
cache， 也 称 为 虚拟 cache, 使 用 虚拟 地 址 存 
储 数 据 。 处 理 器 可 以 直接 访问 逻辑 cache, ffi 
不 需要 通过 MMU。 而 物理 cache 使 用 主 存 的 
物理 地 址 来 存储 数据 。 

人 逻辑 cache 的 一 个 明显 优势 是 其 访问 速 a) 逻辑 cache 
度 比 物理 cache 快 ， 因为 该 cache 能 够 在 
MMU 执行 地 址 翻译 之 前 作出 反应 。 而 其 不 足 
之 处 在 于 大 多 数 虚拟 存储 系统 为 每 一 个 应 用 
程序 提供 相同 的 虚拟 内 存 空 间 。 也 就 是 说 ， 
每 个 应 用 程序 都 可 以 从 地 址 为 0 的 虚拟 内 存 
开始 。 因 此 ， 相 同 的 虚拟 地 址 在 两 个 不 同 的 
应 用 程序 中 涉及 不 同 的 物理 地 址 。 所 以 ， 
cache 存储 器 必须 用 每 一 个 应 用 程序 的 上 下 文 图 4-7 物理 和 逻辑 cache 
开关 对 其 进行 完全 刷新 ， 或 者 为 cache 的 每 一 行 增加 额外 的 几 位 来 标记 与 该 地 址 相关 的 虚拟 
地 址 。 

逻辑 cache 和 物理 cache 的 比较 是 一 个 很 复杂 的 问题 ， 在 本 书 中 不 进行 过 多 的 讨论 。 想 了 解 
更 多 ， 可 参考 [CEKL97] 和 [JACO08]。 














b) 逻辑 cache 


4.3.2 cache 容量 


我 们 前 面 已 经 对 cache 容量 进行 过 讨论 ， 表 4-2 中 也 有 提 到 。 我 们 希望 cache 的 容量 足够 小 ， 
以 至 于 整个 存储 系统 的 平均 每 位 的 价格 接近 于 单个 主 存储 器 的 价格 ， 同 时 我 们 也 希望 cache 足够 
大 ， 从 而 使 得 整个 存储 系统 的 平均 存 取 时 间接 近 于 单个 cache 的 存 取 时 间 。 还 有 几 个 减 小 cache 
容量 的 动机 。cache 越 大 ， 寻 址 所 需要 的 电路 门 就 会 越 多 ， 结 果 是 大 的 cache 比 小 的 稍 慢 ， 即 使 
是 采用 相同 的 集成 电路 技术 制造 并 放 在 芯片 和 电路 板 的 同一 位 置 。cache 容量 也 受 芯 片 和 电路 板 
面积 的 限制 ， 因 为 cache 的 性 能 对 工作 负载 的 性 能 十 分 敏感 ， 所 以 不 可 能 有 “最 优 ” 的 cache 容 
量 。 表 4-3 列 出 了 过 去 和 当前 的 某 些 处 理 器 的 cache 容量 。 


表 4-3 一 些 处 理 器 的 cache 容量 














处 理 器 类 型 推出 年 份 L1 cache? L2 cache L3 cache 
IBM 360/85 大 型 机 T 1968 16 ~32kB — — 
PDP-11/70 小 型 机 1975 1kB 一 一 
VAX 11/780 小 型 机 1978 16kB 一 一 
IBM 3033 大 型 机 1978 64kB 一 一 
IBM 3090 大 型 机 1985 128 ~256kB 一 一 
Intel 80486 PC 1989 8kB 一 一 
Pentium PC 1993 8kB/8kB 256 ~512KB 一 
PowerPC 601 PC 1993 32kB 一 一 
PowerPC 620 PC 1996 32kB/32kB 一 一 
PowerPC G4 PC/ 服 务 器 1999 32kB/32kB 256KB ~ 1MB 2MB 
IBM 5/390 G4 大 型 机 1997 32kB 256KB 2MB 
IBM S/390 G6 大 型 机 1999 256kB 8MB 一 
Pentium 4 PC 服务 器 2000 8kB/8kB 256KB -一 
IBM SP 高 端 服务 器 /超级 计算 机 2000 64kB/32kB 8MB 一 
CRAY MTA® 超级 计算 机 2000 8kB 2MB 一 
Itanium PC/ 服 务 器 2001 16kB/16kB 96KB 4MB 
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( 续 ) 

处 理 器 类 型 推出 年 份 LI cache? L2 cache L3 cache 
SGI Origin 2001 高 端 服务 器 2001 32kB/32kB 4MB 一 
Itanium 2 PC/ 服 务 器 2002 32kB 256KB 6MB 
IBM POWERS 高 端 服务 器 2003 64kB 1.9MB 36MB 
CRAY XD-l 超级 计算 机 2004 64kB/64kB 1MB = 
IBM POWER6 PC/ 服 务 器 2007 64kB/64kB 4MB 32MB 
IBM 210 大 型 机 2008 64kB/128kB 3MB 24 ~48MB 


D 被 斜 杠 符号 分 开 的 两 个 值 分 别 是 指令 cache 和 数据 cache 的 容量 。 


@) 两 个 cache 都 是 指令 cache， 无 数据 cache, 


4.3.3 映射 功能 


由 于 cache 的 行 比 主 存储 器 的 块 要 少 ， 因 此 需要 一 种 算法 来 实现 主 存 块 到 cache 行 的 映射 。 
而 且 ， 还 需要 一 种 方法 来 确定 当前 哪 一 块 占用 了 cache 行 。 映 射 方法 的 选择 决定 了 cache 的 组 织 
结构 ， 通 常 采 用 三 种 映射 方法 直接 映射 、 全 相 联 映射 和 组 相 联 映射 。 下 面 我 们 依次 讨论 这 三 种 
方法 ,分 析 每 种 方法 的 通用 结构 及 其 后 面 的 具体 例子 。 

例 4.2 对 于 所 有 这 三 种 映射 方法 ,该 例子 中 都 包含 下 列 条 件 : 


e cache 能 存储 64KB, 


© 数据 在 主 存 和 cache 之 间 以 每 块 4 字 节 大 小 传输 。 这 意味 着 cache 被 组 织 成 16K =2" 47, 


每 行 4 字 节 。 


。 主 存 容量 为 16MB ， 每 个 字 节 直 接 由 24 位 的 地 址 (2% =16M) 寻 址 。 因 此 ， 为 了 实现 映 
射 ， 我 们 把 主 存 看 成 是 由 4M 个 块 组 成 ， 每 块 4 字 节 。 


1. 直接 映射 


直接 映射 是 最 简单 的 映射 技术 ， 将 主 存 中 的 每 个 块 映射 到 一 个 固定 可 用 的 cache 行 中 。 直 接 


映射 可 表示 为 : 


Hp. i=cache 77 
J= 主 存储 器 的 块 号 
m = cache 的 行 数 
图 4-8a 给 出 了 主 存 中 前 m 块 的 映射 
情况 。 如 图 所 示 ， 主 存 中 的 每 一 块 映 射 
到 cache 中 的 唯一 行 ， 然 后 接 下 来 的 m 
块 依次 映射 到 cache 中 相应 位 置 。 也 就 
是 说 ， 主 存 中 的 B, 块 映射 到 cache 中 对 
应 的 Lu ÍT, Bn EESTE L 行 ， 等 等 。 
映射 功能 通过 主 存 地 址 很 容易 实 
现 。 图 4-9 描述 了 基本 的 映射 机 制 。 为 
了 访问 cache， 每 一 个 主 存 地 址 可 以 看 
成 是 由 三 个 域 组 成 。 最 低 的 w 位 标识 某 
个 块 中 唯一 的 一 个 字 或 字 节 ; 在 当代 大 
ZMH, HAE PPR. MAM 
s 位 指定 了 主 存 2 个 块 中 的 一 个 。cache 
逻辑 将 这 s 位 转换 为 s-r 位 (最 高 位 部 
分 ) 的 标记 域 和 一 个 + 位 的 行 域 , 后 者 


i=j mod m 














Bing 





(等 于 cache 容 量 ) 





b 
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注 : 


a) 直接 映射 


l cache 存 储 器 


) 全 相 联 映射 


图 中 ，2= 块 的 位 长 ， 
lanai. = 


图 4-8 主 存 到 cache 的 映射 : 直接 映射 和 全 相 联 映射 
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标识 了 m =2 个 cache 行 中 的 一 个 。 小 结 如 下 : 
e 地 址 长 度 =(s+w) 位 
e 可 寻 址 的 单元 数 =2“* 个 字 或 字 节 
© 块 大 小 = 行 大 小 =2” 个 字 或 字 节 
o FRR EL" =2' 
e cache 的 行 数 =m =2' 
e cache 的 容量 =2'“ 个 字 或 字 节 
© 标记 长 度 =(s -7) 位 


Stw 






主 存 






匹配 为 0 
否则 为 1 cache 缺 失 


图 4-9 直接 映射 cache 的 组 织 结构 
这 种 映射 的 结构 是 把 主 存 中 的 块 分 配给 如 下 所 示 的 cache 行 中 。 























cache 行 被 分 配 的 主 存 块 
0 0, m, 2m, *…,2’-—m 
1 Lm 2m41, se, 2? md 
m-1 m-1, 2m-1, 3m-1, +, 2°-1 





因此 ， 采 用 部 分 地 址 作为 行 号 提供 了 主 存 中 的 每 一 块 到 cache 的 唯一 映射 。 当 一 块 读 人 到 分 
配给 它 的 行 时 ， 必 须 给 数据 做 标记 ， 从 而 将 它 与 其 他 能 装 和 人 这 一 行 的 块 区 别 开 来 。 最 高 的 *- 


位 用 来 做 标记 。 
例 4.2a 


图 4-10 表示 了 一 个 使 用 直接 映射 的 实例 系统 ?。 在 这 个 例子 中 ，m =16K =2", fii Hi=j mod 


2”， 了 映射 变 为 : 


O 在 本 图 和 后 续 图 中 ， 存 储 器 的 值 使 用 十 六 进 制 表 示 ， 参 见 第 19 章 中 关于 数字 系统 的 复习 (十进制 、 二 进 制 和 十 


六 进 制 ) 。 
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cache 行 主 存 块 的 起 始 地 址 
0 000000, 010000, ，… ，FF0000 
1 000004, 010004, ，… ，FF0004 


OOFFFC, O1FFFC, ---, FFFFFC 




















注意 ， 映 射 到 相同 行 号 的 两 块 不 会 有 相同 的 标记 数 。 因 此 ， 开 始 地 址 为 000000，010000，…， 
FF0000 的 块 对 应 的 标记 数 分 别 为 00，01，…，FF。 

回头 来 再 看 图 4-5 ， 读 操作 的 流程 是 这 样 的 : cache 系统 用 24 位 地 址 表示 ，14 位 的 行 号 用 来 
做 特定 行 的 索引 。 如 果 8 位 标记 数 与 当前 存储 在 该 行 的 标记 数 相 匹配 ， 则 用 2 位 字号 来 选取 行 中 
的 4 个 字 节 。 和 否则 ，22 位 的 标记 加 行 号 域 被 用 来 从 主 存 中 取出 一 块 。 取 主 存 块 所 用 的 实际 地 址 
是 22 位 的 标记 加 行 号 再 接 两 位 0， 因此 ， 在 块 的 边界 起 始 处 读 取 4 个 字 节 。 


主 存 地 址 (二进制 ) 











(ey Pale a 
一 
00 nonb650gb0000000000000000 13579246 
20 aS 
Le | 
1 
1 
| 
1 
00 goo ITM TTmITTio0o i 
0 和 | 
1 
a I 
a ° ! 数据 s 
16 JTI00000000000000000 [T7777777 t 13579246 
16 ET ER te 11235813 11235813 
16 
11223344. 
16 12345678 
<> e 
8 位 。 ”32 位 
2a 16K 行 cache 
FF 
FF 


注意 : 存储 地 址 用 二 进 制 表示 ， 
ary 其 他 用 十 六 进 制 表示 。 


主 存 地 址 = | 





8 位 14 位 2 位 
图 4-10 直接 映射 的 例子 


直接 映射 技术 简单 ， 实 现 起 来 花费 也 少 。 其 主要 缺点 是 : 对 于 任意 给 定 的 块 ， 它 所 对 应 的 
cache 位 置 是 固定 的 。 因 此 ， 如 果 一 个 程序 恰巧 重复 访问 两 个 需要 映射 到 同一 行 中 且 来 自 不同 块 
的 字 ， 则 这 两 个 块 将 不 断 地 被 交换 到 cache H, cache 的 命中 率 将 会 降低 (一 种 所 谓 的 抖动 现象 ) 。 


80 .第 二 部 分 计算 机 系统 


一 种 降低 缺失 开销 的 办 法 是 保存 被 丢弃 的 数据 以 备 再 次 需要 用 到 它 。 因 为 被 丢弃 的 数据 已 
经 被 取 进 cache 中 过 ， 因 此 再 次 使 用 的 开销 比较 小 。 使 用 
Victim cache 可 以 实现 这 种 资源 重复 利用 机 制 。 最 初 提 出 Vic- 
tim cache 这 一 概念 是 为 了 减少 直接 映射 cache 中 冲突 缺失 的 
次 数 ， 并 且 不 影响 其 快速 存 取 的 时 间 。Victim cache 是 一 种 全 
相 联 cache ， 其 存储 容量 一 般 为 4~16 个 cache 行 ， 置 于 使 用 选择 性 的 Victim 高 速 缓存 模拟 器 
直接 映射 的 第 一 级 cache 和 下 一 级 存储 器 之 间 。 这 一 概念 将 在 附录 D 中 进行 探究 。 

2. 全 相 联 映射 

全 相 联 映射 克服 了 直接 映射 的 缺点 ， 它 允许 每 一 个 主 存 块 装 入 cache 中 的 任意 行 ， 如 图 4-8b 
所 示 。 在 这 种 情况 下 ，cache 控制 逻辑 将 存储 地 址 简单 地 表示 为 一 个 标记 域 加 一 个 字 域 。 标 记 域 
用 来 唯一 标识 一 个 主 存 块 。 为 了 确定 某 块 是 否 在 cache, cache 控制 逻辑 必须 同时 对 每 一 行 中 
的 标记 进行 检查 ， 看 其 是 否 匹 配 。 图 4-11 说 明了 这 一 人 逻辑。 注意 ， 地 址 中 无 对 应 行 号 的 字段 ， 
所 以 cache 中 的 行 号 不 由 地 址 格式 决定 。 总 结 如 下 : 

。 地 址 长 度 =(s +w) 位 

。 可 寻 址 的 单元 数 =2"" 个 字 或 字 节 

© 块 大 小 = 行 大 小 =2" 个 字 或 字 节 

。 主 存 的 块 数 =2*/2" =2 

© cache 的 行 数 = 不 由 地 址 格式 决定 

。 标记 长 度 =s 位 








匹配 为 1 
否则 为 0 


匹配 为 0 ee 
否则 为 1 cache ft 4 





图 4-11 全 相 联 映射 的 cache 组 织 


例 4.2b 图 4-12 给 出 了 使 用 全 相 联 映射 的 例子 。 主 存 地 址 由 22 位 标记 和 2 位 的 字 节 号 组 
成 。22 位 标记 必须 与 32 位 数据 块 一 起 存储 在 cache 行 中 。 注 意 ， 地 址 的 最 左 (最 高 ) 22 位 形成 
标记 。 因 此 ，24 位 十 六 进 制 地 址 16339C 有 22 位 标记 058CE7。 这 由 二 进 制 表示 法 很 容易 看 出 : 
存储 地 址 0001 0110 0011 0011 1001 1100 (二进制 ) 
1 6 3 3 9 C (十 六 进 制 ) 
标记 (最 左 22 位 ) 00 0101 1000 1100 1110 ”0111 (二 进 制 ) 
0 5 8 C E 7 (十 六 进 制 ) 
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主 存 地 址 (二 进 制 ) 


a 
TAER i ih ai 
Oe 13579246 







11223344 
FEDCBA98 


058CE6 yf 

058CE7 | | FEDCBA98 

058CE8 
33333333 

Ø| 13579246 

P| 24682468 








f 
1 
1 = £, 
a 
es ary 
1 
| 1 | 16K 行 cache 
p i 
| 1 1 
| € | 
， Pa 
33333333 +-- | | 
3PEPEE VIII I |-----5--: 
ee oe — 注意 ,存储 地 址 用 一 进 制 表示 
意 : a 
32 位 其 他 用 十 六 进 制 表示 。 


16MB 主 存 


主 存 地 址 = | 





22 fit 2 位 
图 4-12 全 相 联 映射 的 例子 


对 于 全 相 联 映射 ， 当 新 的 块 读 信 cache 中 时 ， 替 换 旧 的 一 志 
很 灵活 。 蔡 换算 法 本 节 后 面 将 要 讨论 ， 它 用 来 使 命中 率 最 大 。 全 
相 联 映射 的 主要 缺点 是 需要 复杂 的 电路 来 并 行 检查 所 有 的 cache 
人 高 速 缓存 的 时 间 分 析 模 拟 器 
组 相 联 映射 是 一 种 折 中 方法 ， 它 既 体现 了 直接 映射 和 全 相 联 映射 的 优点 ， 又 避免 了 两 者 的 
缺点 。 
在 组 相 联 映射 中 ，cache 分 为 。 个 组 ， 每 组 包含 个 行 ， 它 们 的 关系 为 








m=vxk 
i=j mod v 
其 中 ; i= cache 组 号 
j= EARS 
m = cache 的 行 数 
v= 组 数 


= 每 组 中 的 行 数 
这 被 称 为 路 组 相 联 映射 。 采 用 组 相 联 映射 ， 块 B 能 够 映射 到 组 j 的 任意 行 中 。 图 4-13a 给 
出 了 主 存 中 前 v 块 与 cache 行 的 映射 关系 。 在 全 相 联 映射 中 ， 每 一 个 字 映 射 到 多 个 cache 行 中 。 
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而 对 于 组 相 联 映射 ， 每 一 个 字 映 射 到 特定 一 组 的 所 有 cache 行 中 ， 于 是 ， 主 存 中 的 B, 块 映射 到 
第 0 组， 如 此 等 等 。 因 此 ， 组 相 联 映射 cache 在 物理 上 是 使 用 了 wv 个 全 相 联 映射 的 cache。 同 时 ， 
它 也 可 看 作为 上 个 直接 映射 的 cache 的 同时 使 用 ， 如 图 4-13b 所 示 。 每 一 个 直接 映射 的 cache RA 
路 ,包括 v 个 cache 行 。 主 存 中 首 v 个 块 分 别 映 射 到 每 路 的 v 行 中 ， 接 下 来 的 v 个 块 也 是 以 同样 的 
方式 映射 ， 后 面 也 如 此 。 直 接 映射 一 般 应 用 于 轻 度 关 联 (% 值 较 小 ) 的 情况 ， 而 全 相 联 映射 应 用 
于 高 度 关联 的 情况 [JAC008 ] 。 







Ly 
cache 存储 器 第 0 组 


主 存 中 前 He cache 存储 器 第 1 路 
(与 cache 组 数 相 同 ) 


b) 大 个 直接 映射 的 cache H 


图 4-13 ”从 主 存 到 cache 的 映射 : 大 路 组 相 联 


在 组 相 联 映射 中 ，cache 控制 逻辑 将 存储 地 址 表示 为 三 个 字段 : 标记 、 组 和 字 。 长 度 为 4 位 
的 组 字段 指定 了 v=2° 个 组 中 的 唯一 一 个 组 ， 标 记 字段 和 组 字段 共 长 s 位 ， 用 以 标明 主 存 中 2: 个 
块 中 具体 某 一 块 。 图 4-14 描述 了 cache 控制 逻辑 。 在 全 相 联 映射 中 ， 主 存 地 址 中 的 标记 字段 很 
长 ， 而 且 还 必须 与 cache 中 每 一 行 匹 配 。 而 在 路 组 相 联 映射 中 ， 主 存 地 址 中 的 标记 字段 要 短 很 
多 ， 而 且 只 需 与 某 一 组 中 的 上 丰 行 匹配 。 总 结 如 下 : 
地 址 长 度 = (s+w) 位 
可 寻 址 的 单元 数 =2"* 个 字 或 字 节 
块 大 小 = 行 大 小 =2” 个 字 或 字 节 
主 存 的 块 数 =2”**/2” =2 
cache 中 每 组 的 行 数 =k 
组 数 =v=2? 
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© cache 中 的 行 数 =m = hv=kx2" 
o cache 存储 容量 =k x2” 字 或 字 节 
© 标记 长 度 =(s -d) fi 








匹配 为 1 
否则 为 0 


匹配 为 0 
否则 为 1 


en 








cache 缺 失 
图 4-14 上 路 组 相 联 映射 的 cache 组 织 


例 4.2c 图 4-15 给 出 了 一 个 用 组 相 联 映射 的 例子 ， 其 中 每 一 组 有 两 行 ， 也 就 是 二 路 组 相 联 。 
13 位 长 的 组 号 标识 了 cache 中 唯一 的 两 行 组 ， 也 给 出 了 用 2° 取 模 后 的 主 存 块 号 。 这 确定 了 块 到 
行 的 映射 。 因 此 ， 主 存 中 的 块 000000 008000, ，…，FF8000 映射 到 cache 中 的 第 0 组 ， 其 中 每 一 
块 都 能 装 和 人 该 组 两 行 中 的 任意 一 行 。 注 意 ， 两 个 映射 到 同一 cache 组 的 块 不 可 能 具有 相同 的 标记 
数 。 对 于 读 操作 ， 用 13 位 组 号 检查 确定 组 地 址 ， 组 中 的 两 行 与 被 存 取 地 址 的 标记 数 进行 匹配 
检查 。 

在 v=m、k=1 的 极端 情况 下 ， 组 相 联 技术 简化 为 直接 映射 。 而 对 于 v=1、k=m 的 情况 ， 它 
又 会 等 同 于 全 相 联 映射 。 每 组 两 行 (v=m/2, k=2) 是 最 常用 的 组 相 联 结构 。 与 直接 映射 相 比 ， 
它 明显 地 提高 了 命中 率 。 四 路 组 相 联 (v=m/4, k=4) 用 相对 较 少 的 附加 成 本 使 命中 率 有 一 些 
提高 [MAYB84，HILL89 ] 。 继 续 增强 每 组 的 行 数 对 cache 命中 率 的 提高 几乎 没什么 效果 。 

图 4-16 给 出 了 组 相 联 cache 性 能 的 一 个 模拟 研究 结果 ， 图 中 显示 了 不 同 cache 容量 对 cache 
性 能 的 影响 [CENU04 ] 。 我 们 注意 到 ， 当 cache 的 容量 达到 64kB 之 前 ， 直 接 映射 和 二 路 组 相 联 
映射 的 性 能 区 别 是 非常 显著 的 。 同 时 也 注意 到 ， 二 路 组 相 联 和 四 路 组 相 联 在 cache 容量 均 为 4kB 
时 的 性 能 差别 要 远 小 于 cache 容量 从 4kB 变 到 8kB 时 的 差别 。 由 于 cache 的 复杂 性 与 相 联 性 成 正 
比例 ， 因 此 ， 在 这 种 情况 下 ， 将 cache 容量 增 大 到 8kB 甚至 16kB 都 是 没有 道理 的 。 最 后 需要 注 
意 的 是 ， 当 cache 容量 超过 32kB 时 ，cache 容量 的 增加 对 提高 性 能 的 


作用 并 不 明显 。 jg a 
图 4-16 是 基于 对 GCC 编译 器 执行 的 模拟 。 不 同 的 应 用 可 能 会 产 


生 不 同 结果 。 例 如 ，[ CANTO1] 报告 了 使 用 很 多 CPU2000 SPEC 基 








准 程序 时 的 cache 性 能 结果 。[ CANT01] 中 比较 命中 率 与 cache 容量 高 速 缓 存 模拟 性 
的 结果 与 图 4-16 中 的 基本 相同 ， 但 是 指定 的 值 有 些 不 同 。 多 任务 的 高 速 缓存 模拟 器 
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32 位 
16MB 主 存 注意 : ed - 进 制 表示 ， 


他 用 十 六 进 制 表示 。 
128k 256k 512k 


图 4-15 二 路 组 相 联 映射 实例 


16k 32k 64k 


cache 大 小 ( FH ) 














k 2k 4k 8k 


16 路 组 相 联 
图 4-16 不 同 相 联 度 在 不 同 cache 大 小 下 的 命中 率 
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43.4 ”替换 算法 


— H cache 行 被 占用 ， 当 新 的 数据 块 装 入 cache 中 时 ， 原 存在 的 块 必须 被 替换 掉 。 对 于 直接 
映射 ， 任 意 特殊 块 都 只 有 唯一 的 一 行 可 以 使 用 ,没有 选择 的 可 能 。 对 于 全 相 联 映射 技术 和 组 相 联 
映射 技术 ， 则 需要 一 种 替换 算法 。 为 了 获得 高 速度 ， 这 种 算法 必须 由 硬件 来 实现 。 人 们 尝试 过 许 
多 算法 ， 下 面 介 绍 最 常用 的 4 种 算法 。 可 能 最 有 效 的 算法 是 最 近 最 少 使 用 的 算法 (LRU): 替换 
掉 那 些 在 cache 中 最 长 时 间 未 被 访问 过 的 块 。 对 于 两 路 组 相 联 ， 这 种 方法 很 容易 实现 ， 每 行 包含 
一 个 USE 位 。 当 某 行 被 引用 时 ， 其 USE 位 被 置 为 1， 而 这 一 组 中 另 一 行 的 USE 位 被 置 为 0。 当 把 
一 块 读 和 人 到 这 一 组 中 时 ， 就 会 替换 掉 USE 位 为 0 的 行 。 由 于 我 们 假定 越 是 最 近 使 用 的 存储 单元 
越 有 可 能 将 被 访问 ， 因 此 ，LRU 会 给 出 最 佳 的 命中 率 。 对 于 全 相 联 cache，LRU 也 相对 容易 实 
现 。 高 速 缓存 机 制 会 为 cache 中 的 每 行 保留 一 个 单独 的 索引 表 。 当 某 一 行 被 访问 时 ， 它 就 会 移动 
到 表 头 ， 而 在 表 尾 的 行将 被 替换 掉 。 因 为 其 实现 简单 ，LRU 是 目前 使 用 最 广泛 的 替换 算法 。 

另 一 种 可 能 的 算法 是 先进 先 出 (FIFO): 替换 掉 那 些 在 cache 中 停留 时 间 最 长 的 块 。FIFO RK 
用 时 间 片 轮转 法 或 环形 缓冲 技术 很 容易 实现 。 还 有 男 一 个 可 能 算法 是 最 不 经 常 使 用 (LFU): & 
换 掉 cache 中 被 访问 次 数 最 少 的 块 。LFU 可 以 用 与 每 行 相关 的 计数 器 来 实现 。 第 四 种 算法 是 一 种 
不 基于 使 用 情况 的 技术 (不 是 LRU，LFU，FIFO， 或 其 他 变 体 ) ， 它 是 在 候选 行 中 任意 选取 ， 然 
后 进行 替换 。 模 拟 实 验 结果 表明 ， 随 机 替换 算法 在 性 能 上 只 稍 逊 于 基于 使 用 情况 的 算法 
[SMIT82 ] 。 


43.5 BRR 


当 驻 留 在 cache 中 的 某 块 要 被 替换 时 ， 必 须 考虑 两 点 。 如 果 cache 中 的 原 块 没有 被 修改 过 ， 
那么 它 可 以 被 直接 替换 掉 ， 而 不 需要 事先 写 回 主 存 。 如 果 在 cache 某 行 中 至 少 在 一 个 字 上 进行 过 
写 操作 ， 那 么 在 替换 掉 该 块 之 前 必须 将 该 行 写 回 主 存 对 应 块 ， 以 进行 主 存 更 新 。 各 种 可 行 的 写 策 
略 都 对 性 能 和 价格 进行 了 权衡 ， 但 还 存在 两 个 争论 的 问题 。 首 先 ， 有 一 个 以 上 的 设备 已 经 访问 了 
主 存储 器 。 例 如 ，1O 模块 可 能 直接 读 / 写 存储 器 。 如 果 一 个 字 只 在 cache 中 修改 过 ， 那 么 相应 的 
存储 器 字 就 是 无 效 的 。 进 一 步 ， 如 果 某 LO 设备 修改 了 主 存储 器 ， 则 cache 中 的 字 是 无 效 的 。 当 
多 个 处 理 器 连接 到 同一 总 线 上 ， 并 且 每 个 处 理 器 都 有 自己 局 部 的 cache 时 ， 则 出 现 了 更 复杂 的 问 
题 。 因 此 ， 如 果 在 一 个 cache 中 修改 了 一 个 字 ， 和 那么 可 以 设想 在 其 他 cache 中 该 字 是 无 效 的 。 

最 简单 的 技术 称 为 写 直 达 (write through ) 。 采 用 这 种 技术 ， 所 有 写 操 作 都 同时 对 主 存 和 
cache 进行 ， 以 保证 主 存 中 的 数据 总 是 有 效 的 。 任 何其 他 处 理 器 -高 速 缓存 模块 监视 对 主 存 的 访 
问 ， 都 是 维护 它 自己 cache 的 一 致 性 。 这 一 技术 的 主要 缺点 是 产生 了 大 量 的 存储 通信 量 ， 可 能 引 
起 瓶颈 问题 。 另 一 种 技术 称 为 写 回 法 (write back) ， 它 减少 了 主 存 的 写 入 。 使 用 写 回 技 术 时 ， 只 
更 新 cache 中 的 数据 。 当 更 新 操作 发 生 时 ， 需 要 设置 与 该 行 相关 的 脏 位 (dirty bit) 或 使 用 位 
(use bit) 。 然 后 ， 当 一 个 块 被 替换 掉 时 ， 当 且 仅 当 脏 位 被 置 位 时 才 将 它 写 回 主 存 。 写 回 的 缺点 
是 ， 部 分 主 存 数据 是 无 效 的 ， 因 此 VO 模块 的 存 取 只 允许 通过 cache 进行 ， 这 就 使 得 电路 设计 更 
加 复杂 而 且 存 在 潜在 的 瓶颈 问题 。 经 验 表 明 ， 写 操作 占 存储 器 操作 的 15% [SMIT82] 。 然 而 ， 对 
于 HPC 应 用 ， 这 个 值 可 接近 33% (向 量 - 向 量 乘法 ) ， 甚 至 可 高 达 50% (EHH). 

例 4.3 考虑 一 个 行 大 小 为 32 字 节 的 cache 和 一 个 传送 一 个 4 字 节 字 用 时 30ns 的 主 存 。 
cache 的 任意 行 被 替换 之 前 至 少 已 被 写 过 一 次 ， 如 果 要 使 写 回 法 比 写 直 达 法 更 高 效 ， 在 被 替换 之 
前 平均 每 行 被 写 的 次 数 是 多 少 ? 

采用 写 回 法 时 ， 每 一 个 脏 行 只 在 交换 时 写 回 主 存 一 次 ， 需 要 8 x30 =240ns。 而 采用 写 直 达 法 
时 ， 每 一 次 更 新 cache 中 的 某 行 都 要 求 有 一 个 字 写 到 主 存 ， 耗 时 30ns。 因 此 ， 如 果 行 换 出 之 前 写 
入 平均 超过 8 次 的 话 ， 则 写 回 法 更 有 效 。 
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在 不 止 一 个 设备 (通常 是 处 理 器 ) 有 cache 且 共 享 主 存 的 总 线 结构 中 出 现 了 一 个 新 的 问题 。 
如 果 某 个 cache 中 的 数据 被 修改 ， 则 它 不 但 会 使 主 存 中 的 相应 字 无 效 ， 而 且 也 会 使 其 他 cache 中 
的 对 应 字 无 效 ( 如果 其 他 cache 中 恰巧 也 有 这 个 字 ) 。 即 使 采用 “ 写 直达 ”策略 ， 其 他 cache 也 
可 能 包含 无 效 的 数据 。 防 止 这 个 问题 的 系统 被 说 成 是 维护 cache 的 一 致 性 。 保 证 cache 一 致 性 的 
方法 有 : 


写 直达 的 总 线 监测 : 每 个 cache 控制 器 监视 地 址 线 ， 以 检测 总 线 的 其 他 主 控 者 对 主 存 的 写 
操作 。 如 果 有 另 一 个 总 线 主 控 者 向 共享 存储 单元 写 信 数据， 而 这 个 单元 内 容 同 时 驻 留 在 
cache 中 ， 则 该 cache 控制 器 使 cache 中 的 这 一 项 无 效 。 这 一 策略 要 求 所 有 cache 控制 器 都 
使 用 写 直 达 策 略 。 

硬件 透明 : 使 用 附加 的 硬件 来 保证 所 有 通过 cache 对 主 存 的 修改 反映 到 所 有 cache 中 。 因 
此 ， 如 果 某 个 处 理 器 修改 了 自己 cache 中 的 一 个 字 ， 则 同时 会 修改 主 存 对 应 单元 ， 任 何其 
他 cache 中 相同 的 字 也 同时 会 被 修改 。 

非 cache 存储 器 : 只 有 一 部 分 主 存 为 多 个 处 理 器 共享 ， 这 称 为 非 cache。 在 这 样 的 系统 
中 ， 所 有 对 共享 存储 器 的 访问 都 导致 cache 缺失 ， 因 为 共享 存储 器 中 的 数据 不 会 复制 到 
cache H, JẸ cache 存储 器 能 采用 片 选 逻辑 或 高 地 址 位 来 标识 。 

cache 一 致 性 是 一 个 活跃 的 研究 领域 ,我们 将 在 第 五 部 分 对 其 进行 深入 探讨 。 


4.3.6 TA 


另 一 个 设计 要 素 是 行 大 小 。 当 一 个 数据 块 被 检索 并 放 和 人 cache 中 时 ， 所 需 的 字 和 一 些 相 邻 的 
字 都 会 被 取出 。 当 数据 块 由 很 小 变 得 较 大 时 ， 命 中 率 刚 开始 会 因为 局 部 性 原理 而 增加 。 局 部 性 原 
理 是 指 : 被 访问 字 附 近 的 数据 很 可 能 会 在 不 久 的 将 来 被 访问 到 。 随 着 块 大 小 的 增加 ， 更 多 有 用 数 
HE BAR A cache。 但 是 ， 当 块 变 得 相当 大 ， 并 且 使 用 新 取信 息 的 概率 变 得 小 于 重用 已 被 蔡 换 掉 的 
信息 概率 时 ,命中 率 开始 下 降 。 块 的 两 个 特殊 作用 如 下 : 

o 较 大 的 块 减少 了 装 人 cache 中 的 块 数 。 因 为 每 个 新 块 都 会 覆盖 掉 原 来 cache 块 中 的 内 容 ， 

少量 的 块 导致 了 装 入 的 数据 很 快 被 改写 。 

e 当 块 变 大 时 ， 每 个 附加 字 就 会 离 所 需 字 更 远 ， 因 此 被 使 用 的 可 能 性 也 就 更 小 。 

块 大 小 与 命中 率 之 间 关 系 复杂 ， 它 取决 于 特定 程序 的 局 部 性 特征 ， 目 前 还 没有 找到 确定 的 
最 优 值 。 块 大 小 为 8 ~64B 时 ， 比 较 接 近 最 优 值 [SMIT87，PRZY88，PRZY90，HAND98 ] 。 对 于 
HPC 系统 来 说 ， 最 常用 的 行 大 小 是 64B 和 128B。 


4.3.7 cache 数目 


最 初 引 入 cache 时 ， 系 统 通 常 只 有 一 个 cache。 近 年 来 ， 使 用 多 个 cache 已 经 变 得 相当 普遍 。 
我 们 所 考虑 设计 问题 的 两 个 方面 是 : cache 的 级 数 以 及 采用 统一 或 分 立 的 cache。 

1. 多 级 cache 

由 于 集成 度 的 提高 ， 将 cache 与 处 理 器 置 于 同一 芯片 (HA cache) 成 为 可 能 。 与 通过 外 部 
总 线 连接 的 cache 相 比 ， 片 内 cache 减少 了 处 理 器 在 外 部 总 线 上 的 活动 ， 从 而 减少 了 执行 时 间 ， 
全 面 提 高 了 系统 性 能 。 当 所 需 的 指令 或 数据 在 片 内 cache 中 时 ， 消 除了 对 总 线 的 访问 。 因 为 与 总 
线 长 度 相 比 ， 人 处理 器 内 部 的 数据 路 径 较 短 ， 访 问 片 内 cache 甚至 比 零 等 待 状态 的 总 线 周期 还 要 
快 。 而且， 在 这 段 时 间 内 ， 总 线 是 空闲 的 ， 可 用 于 其 他 数据 的 传送 。 

片 内 cache 导致 了 另 一 个 问题 : 是否 仍 需 要 使 用 一 个 片 外 的 或 外 部 的 cache. HFT, ARE 
肯定 的 ， 多 数 当 代 的 设计 既 包 含 片 内 cache， 又 包含 外 部 cache。 这 种 组 织 方 式 中 最 简单 的 是 两 级 
cache, HHH, HW cache 为 第 一 级 (L1), ， 外 部 cache 为 第 二 级 (L2 ) 。 包 含 L2 cache 的 理由 如 
F: 如 果 没 有 L2 cache 并 且 处 理 器 要 求 访问 的 地 址 不 在 Ll cache 中 时 ， 则 处 理 器 必须 通过 总 线 访 
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ia] DRAM 或 ROM 存储 器 。 因 为 通常 总 线 速度 较 慢 且 存储 器 存 取 时 间 较 长 ， 这 就 导致 了 较 低 的 性 
能 。 另 一 方面 ， 如 果 使 用 了 L2 SRAM (静态 RAM) cache， 则 经 常 缺 失 的 信息 能 够 很 快 被 取 来 。 
如 果 SRAM 的 速度 快 到 能 与 总 线 速 度 相 匹配 ， 则 数据 能 够 用 零 等 待 状态 来 存 取 ， 这 是 总 线 传输 最 
快 的 一 种 类 型 。 

当代 多 级 cache 设计 的 两 个 特点 值得 注意 : 第 一 ， 对 于 片 外 L2 cache， 许 多 设计 都 不 是 用 系 
统 总 线 作为 L2 cache 和 处 理 器 之 间 的 传送 路 径 ， 而 是 使 用 单独 的 数据 路 径 ， 以 便 减 轻 系统 总 线 的 
负担 。 第 二 ， 随 着 处 理 器 部 件 持续 缩小 ， 现 在 已 有 许多 处 理 器 将 L2 cache 结合 到 处 理 器 芯片 上 ， 
改善 了 性 能 。 

若 想 使 用 L2 cache， 则 取决 于 LI 和 12 中 的 命中 率 。 一 些 研究 表明 ， 使 用 两 级 cache 通常 确 
实 可 以 提高 性 能 (参见 [AZIM92] 、[NOVI93] 、[ HAND98 ] ) 。 然 而 ， 多 级 cache 的 使 用 也 使 得 
关于 cache 设计 的 所 有 问题 都 变 得 复杂 ， 包括 cache 容量 、 蔡 换算 法 和 写 策 略 等 ， 详 见 
[HAND98] 和 [PEIR99 ] 。 

图 4-17 给 出 了 在 不 同 cache 大 小 情况 下 两 级 cache 性 能 的 模拟 研究 结果 [CENU04]。 图 中 假 
定 两 级 cache 都 有 相同 的 cache 行 大 小 ， 并 给 出 了 不 同情 况 下 的 总 命中 率 。 也 就 是 说 ， 如 果 所 需 
的 数据 在 L1 cache 中 或 L2 cache 中 出 现 ， 则 算 一 次 命中 。 图 中 显示 了 不 同 Ll cache 大 小 下 L2 
cache 大 小 对 总 命中 率 的 影响 。 直 到 L2 cache 大 小 至 少 为 L1 cache 大 小 的 两 倍 时 ， 才 对 提高 总 命 
中 率 有 明显 的 作用 。 注 意 : 当 Ll cache 为 8KB 时 ， 曲 线 最 陡 的 点 出 现在 L2 cache 为 16KB 时 。 同 
样 ， 当 L1 cache 为 16KB 时 ， 曲 线 最 陡 的 点 出 现在 L2 cache 为 32KB 时 。 在 最 陡 的 点 出 现 之 前 ， 
L2 cache 对 总 cache 性 能 几乎 没 多 少 影响 。 需 要 L2 cache HE Ll cache 大 时 ， 才 能 使 提高 性 能 成 为 
可 能 。 如 果 L2 cache 与 Ll cache 有 相同 的 行 大 小 和 容量 ， 则 其 内 容 将 或 多 或 少 与 Ll cache 中 
相同 。 


命中 率 





IK 2K 4K 8K 16K 32K 64K 128K 256K 512K IM 2M 
L2 cache 大 小 (ZY) 


图 4-17 L1 X 8KB Al 16KB 时 的 总 命中 率 (Ll 和 12) 


随 着 适用 于 cache 的 芯片 面积 的 可 用 性 的 提高 ， 大 多 数 当 代 处 理 器 已 将 L2 cache 移 到 处 理 器 
芯片 上 ， 并 添加 了 一 个 L3 cache。 最 初 ，L3 cache 是 越过 外 部 总 线 来 存 取 的 。 而 最 近 ， 大 多 数 处 
理 器 已 集成 到 L3 cache 上 。 无论 哪 种 情况 ， 加 入 L3 cache 使 性 能 明显 地 得 到 提升 (参见 
[ GHAI98]), 
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2. 统一 与 分 立 cache 

当 片 内 cache 首次 出 现时 ， 许 多 设计 都 采用 单个 cache， 既 存放 数据 ， 又 存放 指令 。 近 年 来 ， 
通常 把 cache 分 为 两 部 分 : 一 个 专门 用 于 指令 ， 另 一 个 专门 用 于 数据 。 这 两 种 cache 被 置 于 同一 
级 ,通常 作为 两 个 Ll cache。 当 处 理 器 试图 从 主 存 中 取 指 令 时 ， 它 首先 查阅 指令 Ll cache; 而 当 
处 理 器 试图 从 主 存 中 取 数 据 时 ， 它 会 先 查阅 数据 Ll cache, 

统一 cache 有 两 个 潜在 的 优点 : 

e 对 于 给 定 的 cache 容量 ， 统 一 cache 较 独 立 cache 有 更 高 的 命中 率 ， 因 为 它 在 获取 指令 和 
数据 的 负载 之 间 自 动 进行 平衡 。 也 就 是 说 ， 如 果 执 行 方式 中 取 指 令 比 取 数据 要 多 得 多 ， 则 
cache 倾向 于 被 指令 填 满 。 如 果 执 行 方式 中 要 读 取 的 数据 相对 较 多 ， 则 会 出 现 相反 的 情况 。 

e 只 需 设 计 和 实现 一 个 cache。 

尽管 统一 cache 有 这 些 优点 ， 但 分 立 cache 是 一 种 发 展 趋势 ， 特 别 是 对 于 超标 量 机 器 ， 例 如 

Pentium 和 PowerPC， 它 们 强调 并 行 指令 执行 和 带 预测 的 指令 预 取 。 分 立 cache 设计 的 主要 优点 是 
消除 了 cache 在 指令 的 取 指 / 译 码 单元 和 执行 单元 之 间 的 竞争 ， 这 在 任何 基于 指令 流水 线 的 设计 
中 都 是 重要 的 。 通 常 处 理 器 会 提前 获取 指令 ， 并 把 将 要 执行 的 指令 装 入 缓冲 区 或 流水 线 。 假 设 ， 
现在 有 统一 指令 /数据 cache ， 当 执行 单元 执行 存储 器 访问 来 存 和 取 数 据 时 ， 这 一 请 求 被 提交 给 统 
一 cache。 如 果 同 时 指令 预 取 器 为 取 指 令 向 cache 发 出 读 请 求 ， 则 后 一 请 求 会 暂时 阻塞 以便 
cache 能 够 先 为 执行 单元 提供 服务 ， 使 它 能 完成 当前 的 指令 执行 。 这 种 对 cache 的 竞争 会 降低 性 
能 ， 因 为 它 干扰 了 指令 流水 线 的 有 效 使 用 。 分 立 cache 结构 解决 了 这 一 问题 。 


4.4 Pentium 4 的 cache 组 织 


可 以 从 Intel 微 处 理 器 的 发 展 中 清晰 地 看 到 cache 组 织 的 演变 ( 如 表 4-4 所 示 )。80386 不 包 
含 片 内 cache; 80486 包含 一 个 8KB 的 片 内 cache， 它 采用 四 路 组 相 联 结构 ， 每 行 16B。 所 有 的 
Pentium 处 理 器 都 包含 两 个 片 内 Ll cache， 一 个 用 于 数据 ， 另 一 个 用 于 指令 。 对 于 Pentium 4， 其 
L1 数据 cache 的 容量 是 16KB ， 每 行 64B， 采 用 四 路 组 相 联 结构 。Pentium 4 的 指令 cache 将 在 后 面 
进行 介绍 。Pentium 了 还 包括 一 个 L2 cache, EH Ll 数据 cache 和 指令 cache 提供 信息 。 该 L2 
cache 采用 8 路 组 相 联 结构 ， 容 量 为 S12KB ， 每 行 128B。Pentium 亚 添 加 了 一 个 13 cache， 而 到 
Pentium 4 的 高 端 版 本 ，L3 cache 已 经 移 到 了 处 理 器 芯片 内 。 


表 4-4 Intel 的 cache 进展 


问题 解决 方案 首次 采用 该 特 











征 的 处 理 器 
外 部 存储 器 比 系统 总 线 慢 使 用 更 快 的 存储 器 技术 增加 外 部 cache 386 
增加 的 处 理 器 速度 导致 外 部 总 线 成 为 cache 访 | ”将 外 部 cache 移 到 片 内 ， 以 处 理 器 相同 的 速度 进 486 
问 的 瓶颈 行 操作 





由 于 片 内 空间 的 限制 ， 片 内 cache 太 小 使 用 比 主 存 更 快 的 技术 ， 增 加 外 部 L2 cache 486 
当 指令 预 取 器 和 执行 单元 同时 需要 访问 cache 
时 出 现 了 竞争 。 在 此 种 情况 下 ， 指 令 预 取 器 在 形成 分 离 的 数据 cache 和 指令 cache Pentium 
执行 单元 访问 数据 时 只 能 暂停 











形成 分 离 的 后 端 总 线 ， 它 比 主 (前 端 总 线 ) 外 Pentium P 
增加 的 处 理 器 速度 导致 外 部 总 线 成 为 [2 部 总 线 运行 速度 要 快 。BSB 总 线 服务 于 12 cache onirun se 


cache 访问 的 瓶颈 





将 L2 cache 移 到 处 理 器 芯片 内 Pentium II 


某 些 应 用 需要 处 理 庞大 的 数据 库 ， 并 且 必 须 | “增加 外 部 L3 cache Pentium Ill 


对 大 量 数据 进行 快速 访问 。 片 上 cache 太 小 将 L3 cache 移 到 片 内 

















Pentium 4 
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图 4-18 给 出 了 一 个 Pentium 4 组 织 的 简化 图 ， 着 重 强调 了 3 个 cache 的 布局 。 处 理 器 核心 由 4 
个 主要 部 件 组 成 : 

o 取 指 / 译 码 单元 (fetch/decode unit): 按 顺序 从 L2 cache 中 读 取 程序 的 指令 ， 将 它们 译 成 
一 系列 的 微 操 作 ， 并 存 和 人 LI 指令 cache 中 。 

© 乱 序 执行 逻辑 (out-of-order execution logic) : 依据 数据 相关 性 和 资源 可 用 性 调度 微 操作 的 
执行 ， 于 是 ， 微 操作 可 按 不 同 于 所 取 指 令 流 的 顺序 被 调度 执行 。 只 要 时 间 许 可 ， 此 单元 
调度 将 来 可 能 需要 的 微 操作 的 推测 执行 。 

© 执行 单元 (execution unit); 这 些 单元 用 来 执行 微 操作 ， 它 们 从 Ll 数据 cache 中 获取 所 需 
的 数据 ， 并 且 将 结果 暂 存在 寄存 器 中 。 

© 存储 器 子 系统 (memory subsystem): 这 部 分 包含 L2 和 13 cache 以 及 系统 总 线 。 当 L1 和 
L2 cache 未 命中 时 ， 使 用 系统 总 线 访问 主 存 。 系 统 总 线 还 可 用 于 访问 VO 资源 。 


系统 总 线 





256 位 
图 4-18 Pentium 4 框架 


不 同 于 所 有 先前 的 Pentium 处 理 器 和 大 多 数 其 他 处 理 器 所 采用 的 组 织 结构 ，Pentium 4 的 指令 
cache 位 于 指令 译 码 逻辑 和 执行 核心 之 间 。 使 用 这 种 设计 的 理由 如 下 : Pentium 处 理 器 将 机 器 指令 
译 码 或 转换 成 被 称 为 微 操作 的 简单 RISC 类 指令 ， 使 用 简单 的 定 长 微 操 作 人 允许 采用 超标 量 流水 线 
和 调度 技术 ， 从 而 提高 了 性 能 。 然 而 ，Pentium 机 器 指令 译 码 不 方便 ， 它 们 长 度 可 变 并 且 有 许多 
不 同 的 选项 。 研 究 结果 表明 ， 若 独立 于 调度 和 流水 线 逻 辑 来 译 码 的 话 ， 性 能 会 增强 。 在 第 14 章 
我 们 再 进行 更 全 面 的 讨论 。 

数据 cache 采用 写 回 策略 : 仅 当 修改 过 的 数据 被 替换 出 cache 时 ， 才 写 回 主 存 。Pentium 4 处 
理 器 也 能 动态 配置 以 支持 写 直达 高 速 缓存 。 

L1 数据 cache 由 控制 寄存 器 中 的 两 位 控制 ， 它 们 标记 为 CD (cache disable，cache 禁用 ) 和 
NW ( 非 写 直达 ) 位 (如 表 4-5 所 示 ) 。Pentium 4 还 有 两 条 控制 数据 cache 的 指令 : INVD 用 于 清 
除 内 部 cache 存储 器 ， 并 向 外 部 cache (WRA) 发 送 清除 信号 ; WBINVD 先 执行 写 回 操作 并 使 
内 部 cache 无 效 ， 然 后 再 执行 写 回 操作 并 使 外 部 cache 无 效 。 
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L2 和 L3 cache 都 是 采用 8 路 组 相 联结 构 ， 每 行 128B。 
表 4-5 Pentium 4 cache 操作 模式 














注 : CD=0, NW=1 是 一 种 无 效 组 合 。 


4.5 ARM 的 cache 组 织 


ARM cache 组 织 随 着 整个 ARM 系列 体系 结构 的 发 展 而 发 展 ， 这 也 折射 出 所 有 微 处 理 器 设计 
者 不 断 追 求 高 性 能 的 动力 。 

表 4-6 显示 了 这 一 发 展 历程 。ARM7 模型 使 用 一 个 统一 的 Ll cache， 而 接 下 来 的 模型 普遍 使 
用 分 立 的 指令 /数据 cache。 所 有 的 ARM 设计 都 是 使 用 组 相 联 cache, 但 cache 的 相 联 度 和 行 大 小 
有 所 不 同 。 对 于 ARM7 到 ARM10 系列 处 理 器 ， 包 括 Intel StrongARM 和 Intel Xscale 处 理 器 ， 带 有 
MMU (Memory Management Unit) 单元 的 ARM 绥 存 内 核 都 使 用 一 个 逻辑 cache, Mi ARM11 系列 使 
用 物理 cache, i 4% cache 和 物理 cache 的 区 别 在 本 章 前 面部 分 已 经 进行 了 讨论 (如 图 4-7 所 示 )。 


表 4-6 ARM cache 特性 









































核心 。 | cache 类 型 | cache 容量 (KB) 相 联 度 | 存储 单元 | 写 缓冲 大 小 〈 字 ) 
ARM720T 统一 4 4 路 逻辑 上 8 
ARM920T 分 立 16/16 数据 /指令 8 64 路 逻辑 16 
ARM926EJ-S 分 立 “| 4-128/4-128 数据 /指令 8 4 路 逻辑 16 
ARM1022E 8 64 路 逻辑 16 
ARM1026EJ-S 8 4 路 逻辑 8 
Intel StrongARM 16/16 数据 /指令 4 32 路 逻辑 32 
Intel Xscale 8 32 路 逻辑 32 


ARM 体系 结构 的 一 个 有 趣 特点 是 使 用 了 一 个 小 型 先 人 先 出 (FIF0) 缓冲 区 以 提高 内 存 写 性 
能 。 该 写 缓冲 区 内 置 于 cache 和 主 存 之 间 ， 它 由 一 组 地 址 和 一 组 数据 字 组 成 。 与 cache 相 比 ， 写 
缓冲 区 要 小 很 多 ， 可 能 仅 能 容纳 4 个 独立 的 地 址 。 通 常 ， 虽 然 写 缓冲 区 在 页 级 会 选择 性 关闭 ， 但 
它 可 供 所 有 主 存 使 用 。 图 4-19 显示 了 写 缓冲 区 cache 和 主 存 之 间 的 关系 (来源 : [SLOS04] ) 。 


字 ， 字 节 级 访问 


快 
字 ， 字 节 级 访问 





图 4-19 ARM cache 写 缓冲 组 织 结构 


第 4 章 cache 存储 器 . 91 


写 缓冲 区 上 的 操作 如 下 : 当 处 理 器 向 缓冲 区 执行 一 个 写 操作 时 ， 数据 以 处 理 器 时 钟 速度 被 
放 入 写 缓冲 区 ， 而 处 理 器 继续 执行 其 他 操作 。 写 操作 在 cache 中 的 数据 被 写 回 主 存 时 发 生 ， 因 
此 ， 要 写 的 数据 是 由 cache 传送 到 写 缓冲 区 中 的 。 然 后 写 缓冲 区 并 行 执行 外 部 写 操作 。 然 而 ， 如 
果 写 缓冲 区 是 满 的 (不 管 是 因为 缓冲 区 中 的 字数 已 达 上 限 ， 还 是 没有 新 地 址 模 )， 处 理 器 就 会 停 
止 执行 ， 直 到 缓冲 区 中 有 足够 的 空间 为 止 。 随 着 非 写 入 操作 的 执行 ， 写 缓冲 持续 地 向 主 存 写 入 数 
据 直到 缓冲 区 完全 为 空 。 

写 人 写 缓 冲 区 的 数据 在 传送 到 主 存 之 前 不 能 读 回 cache 中 ， 主 要 原因 是 写 缓冲 相当 小 。 虽 然 
如 此 ， 除 非 在 一 个 执行 程序 中 写 操作 所 占 比例 非常 高 ， 写 缓冲 区 才能 提高 性 能 。 


4.6 推荐 的 读物 

[JACO08] 关于 cache 设计 的 论述 非常 出 色 ， 也 跟 上 了 最 新 技术 的 发 展 。 另 一 个 关于 cache 设计 的 详细 
论述 在 [HAND98] 中 。 到 现在 仍 值得 一 读 的 经 典 论文 是 [SMIT82] ， 它 总 括 了 cache 设计 的 各 种 要 素 ， 同 
时 提供 了 非常 丰富 的 分 析 结 果 。 另 一 篇 非常 有 趣 的 经 典 之 作 是 [WILK65 ] ， 它 可 能 是 第 一 篇 引入 cache 概念 
的 论文 。[ G00D83] 也 提供 了 cache 行为 的 有 用 分 析 。 另 一 篇 有 价值 的 分 析 是 论文 [ BELL74 ] 。[ AGAR89 ] 
给 出 了 许多 cache 设计 问题 中 关于 多 道 程序 和 多 线程 部 分 的 详细 检测 。[ HIGB90] 提供 了 一 组 简单 的 公式 ， 
这 些 公式 能 用 来 评估 在 不 同 参数 设置 下 的 cache 性 能 。 
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47 关键 词 、 思 考题 和 习题 


关键 词 

access time: 存 取 时 间 ， 访 问 时 间 

associative mapping: 全 相 联 映射 

cache hit; cache 命中 

cache memory; cache 存储 器 ， 高 速 缓冲 存储 器 
cache miss: cache fR, cache 未 命中 

data cache: 数据 cache 

direct access: 直接 存 取 

direct mapping: 直接 映射 

high-performance computing (HPC): 高 性 能 计算 
hit ratio: 命中 率 

instruction cache; 指令 cache 

L1 cache; 一 级 cache 

L2 cache: 二 级 cache 

13 cache; 三 级 cache 


Locality; 局 部 性 

logical cache: 逻辑 cache 

memory hierarchy: 存储 器 层次 结构 
multilevel cache: 多 级 cache 
physical cache; 物理 cache 

random access: 随机 存 取 
replacement algorithm; 替换 算法 
sequential access: 顺序 存 取 
set-associative mapping: 组 相 联 映射 
spatial locality: 空间 局 部 性 

split cache: 分 立 cache 

tag: 标记 

temporal locality: 时 间 局 部 性 


unified cache: 统一 cache 
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virtual cache: 虚拟 cache 
write back: 写 回 


思考 题 


write once， 写 一 次 
write through: 写 直 达 


4.1 
4.2 
4.3 
4.4 
4.5 
4.6 
4.7 
4.8 


顺序 存 取 、 直 接 存 取 和 随机 存 取 三 者 有 何不 同 ? 

存 取 时 间 、 存 储 器 成 本 和 容量 之 间 的 一 般 关 系 是 什么 ? 

局 部 性 原理 如 何 与 多 级 存储 器 的 使 用 相 联系 ? 

直接 映射 、 全 相 联 映射 、 组 相 联 映射 间 的 区 别 是 什么 ? 

对 于 一 个 直接 映射 cache， 主 存 地 址 可 看 成 由 3 段 组 成 。 请 列 出 并 定义 它们 。 

对 于 一 个 全 相 联 映射 cache， 主 存 地 址 可 以 看 成 由 2 段 组 成 。 请 列 出 并 定义 它们 。 
对 于 一 个 组 相 联 映射 cache， 主 存 地 址 可 看 成 由 3 段 组 成 。 请 列 出 并 定义 它们 。 
空间 局 部 性 和 时 间 局 部 性 的 区 别 是 什么 ? 


4.9 通常 ， 利 用 时 间 局 部 性 和 空间 局 部 性 的 策略 是 什么 ? 
习题 
4.1 一 个 组 相 联 cache 由 64 个 行 组 成 ， 每 组 4 行 。 主 存储 器 包含 4K 个 块 ， 每 块 128 字 ， 请 表示 主 存 地 址 的 


4.2 


4.3 


4.4 


4.5 


4.6 


4.7 


4.8 


格式 。 

一 个 二 路 组 相 联 cache 具有 8KB 容量 ， 每 行 16 字 节 。64MB 的 主 存 是 字 节 可 寻 址 的 。 请 给 出 主 存 地 址 

格式 。 

对 于 十 六 进 制 主 存 地 址 : 111111、666666，BBBBBB ， 请 用 十 六 进 制 格式 表示 如 下 信息 : 

(a) 使 用 图 4-10 的 格式 的 直接 映射 cache 的 标记 、 行 和 字 的 值 。 

(b) 使 用 图 4-12 的 格式 的 全 相 联 映射 cache 的 标记 和 字 的 值 。 

(c) 使 用 图 4-15 的 格式 的 二 路 组 相 联 cache 的 标记 、 组 和 字 的 值 。 

请 给 出 下 列 值 : 

(a) 对 于 图 4-10 给 出 的 直接 映射 cache 的 例子 : 地 址 长 度 ， 可 寻 址 单元 数 ， 块 大 小 ， 主 存 的 块 数 ， 
cache 的 行 数 ， 标 记 的 位 数 。 

(b) 对 于 图 4-12 给 出 的 全 相 联 映射 cache 的 例子 : 地 址 长 度 ， 可 寻 址 单元 数 ， 块 大 小 ， 主 存 的 块 数 ， 
cache 的 行 数 ， 标 记 的 位 数 。 

(c) 对 于 图 4-15 给 出 的 二 路 组 相 联 映射 cache 的 例子 : 地 址 长 度 ， 可 寻 址 单元 数 ， 块 大 小 ， 主 存 的 块 
数 每 组 行 数 ， 组 数 ，cache 的 行 数 ， 标 记 的 位 数 。 

考虑 一 个 32 位 的 微 处 理 器 ， 它 采用 16KB 片 内 四 路 组 相 联 cache, i cache 每 行 包含 4 个 32 (i. M 

出 此 cache 的 框图 ， 并 在 图 中 表示 其 结构 和 如 何 使 用 不 同 的 地 址 域 来 确定 cache 是 否 命中 。 存 储 单元 地 

tk ABCDE8F8 映射 到 cache 的 什么 地 方 ? 

给 出 下 列 外 部 cache 存储 器 的 规范 : 四 路 组 相 联 ， 每 行 包含 2 个 16 位 字 ， 总 共 能 容纳 主 存储 器 的 4K 个 

32 位 字 ; 使 用 可 发 出 24 位 地 址 的 16 位 处 理 器 。 利 用 上 述 相关 信息 设计 cache 的 结构 ， 并 说 明 它 如 何 

转换 处 理 器 地 址 。 

Intel 80486 有 一 个 统一 的 片 内 cache， 其 容量 为 8SKB， 采 用 四 路 组 相 联结 构 ， 每 块 包含 4 个 32 位 字 。 

cache 组 织 成 128 组 ， 每 行 有 一 个 “ 行 有 效 位 ”与 另外 3 个 位 BO. B1, B2 (LRU 位 ) 。 在 cache 未 命中 

时 ，80486 在 一 个 总 线 存储 器 读 周期 内 从 主 存 读 取 一 个 16 字 节 的 行 。 画 出 简化 的 cache 框图 ， 并 说 明 

地 址 的 不 同 字段 是 如 何 转换 的 。 

考虑 一 台 机 器 ， 其 主 存 可 以 按 字 节 寻 址 ， 容 量 是 2" 字 节 ， 块 大 小 为 8 字 节 。 假 设 该 机 器 使 用 一 个 包含 

32 行 的 直接 映射 cache, 

(a) 16 位 存储 器 地 址 如 何 划分 成 标记 、 行 号 和 字 节 号 ? 

(b) 如 下 地 址 的 内 容 将 存 人 cache 的 哪些 行 ? 


0001 0001 0001 1011 
1100 0011 0011 0100 
1101 0000 0001 1101 
1010 1010 1010 1010 


4.9 


4.10 


4.12 


4.13 
4.14 


4.15 
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(c) 假设 地 址 0001 1010 0001 1010 的 字 节 内 容 存 人 cache， 那 么 与 它 同 存 一 行 的 其 他 字 节 的 地 址 各 是 
什么 ? 

(d) 存储 器 总 共有 多 少 字 节 能 保存 于 cache 中 ? 

(e) 为 何 标记 亦 保 存在 cache 中 ? 

Intel 80486 采用 的 替换 算法 被 称 为 “ 伪 最 近 最 少 使 用 算法 ”。 与 128 个 4 行 组 (RIA LO, L1, 12 和 

13) 相关 的 是 3 个 位 : BO, B1 和 B2 。 替 换算 法 工作 原理 如 下 : 当 某 一 行 必 须 被 替换 掉 时 ，cache 首先 

判断 最 近 使 用 的 是 来 自 L0 和 Ll1， 还 是 12 和 13， 然 后 判断 哪 一 对 块 是 最 近 最 少 使 用 的 ， 将 它 标记 为 替 

换 。 图 4-20 说 明了 此 逻辑 。 

(a) 试 说 明 如 何 设置 B0，B1 和 B2 位 ， 并 使 用 语言 描述 如 何在 图 4-20 表示 的 替换 算法 中 使 用 它们 。 

(b) 试 说 明 80486 采用 的 算法 接近 于 真正 的 LRU 算法 。 提 示 : 考虑 最 近 使 用 的 顺序 是 LO, L2, L3, 
LI 的 情况 。 

(c) 证 明 真 正 的 LRU 算法 要 求 每 组 6 位。 


组 中 的 4 行 都 有 效 吗 ? m 替换 无 效 行 


*| 


B0=0? 


Æ, LOLI 否 ，L2 或 L3 
最 近 使 用 过 最 近 使 用 过 


B1=0? B2=0? 


是 否 是 否 


替换 LO 替换 LI 替换 L2 替换 L3 


K] 4-20 Intel 80486 片上 cache 的 替换 算法 

一 个 组 相 联 cache， 每 块 大 小 为 4 个 16 位 字 , 组 大 小 为 2，cache 总 共 能 容纳 4096 个 字 。 可 缓存 的 主 

存 容量 为 64K x32 位 。 设 计 一 种 cache 的 结构 ， 并 说 明 如 何 转 换 处 理 器 的 地 址 。 

考虑 一 个 由 32 位 地 址 字 节 级 寻 址 的 主 存 和 行 大 小 为 64B 的 cache 所 组 成 的 存储 子 系统 。 

(a) 假定 cache 采用 直接 映射 技术 ， 并 且 地 址 中 的 标记 字段 为 20 位 。 请 给 出 地 址 格式 并 确定 下 列 参 
数 : 可 寻 址 单元 数 ， 主 存 的 块 数 ，cache 的 行 数 。 

(b) 假定 cache 采用 全 相 联 映射 技术 ， 请 给 出 地 址 格式 并 确定 下 列 参 数 : 可 寻 址 单元 数 、 主 存 的 块 
数 、cache 的 行 数 、 标 记 的 长 度 。 

(c) 假定 cache 采用 4 路 组 相 联 映射 技术 ,并且 地 址 中 的 标记 字段 为 9 位 。 请 给 出 地 址 格式 并 确定 下 
列 参数 : 可 寻 址 单元 数 ， 主 存 的 块 数 ， 组 中 的 行 数 ，cache HAR, cache HAM, cache KTR, 
标记 的 长 度 。 

考虑 一 个 具有 下 述 特征 的 计算 机 : 主 存 1MB， 字 长 1B8， 块 大 小 16B; cache 容量 64KB。 

(a) 若 为 直接 映射 cache， 请 给 出 主 存 地 址 F0010, 01234 和 CABBE 相应 的 标记 、cache 行 地 址 和 字 
偏 移 。 

(b) 若 为 直接 映射 cache， 试 给 出 映射 到 同一 cache 行 而 有 不 同 标记 的 两 个 主 存 地 址 。 

(c) 若 为 全 相 联 映射 cache， 请 给 出 主 存 地 址 F0010 和 CABBE 相应 的 标记 和 字 偏 移 。 

(d) 若 为 二 路 组 相 联 cache， 请 给 出 主 存 地 址 F0010 和 CABBE 相应 的 标记 、 组 号 和 字 偏 移 。 

描述 在 四 路 组 相 联 cache 中 实现 LRU 替换 算法 的 简单 技术 。 

再 次 考虑 例 4.3。 若 主 存 使 用 块 传送 方式 ， 第 一 个 字 的 存 取 时 间 是 30ns， 后 续 相 邻 地 址 的 每 个 字 的 存 

取 时 间 是 5ns， 答案 将 发 生 怎样 的 变化 ? 

考虑 如 下 代码 : 

For (i= 0; i< 20; i++) 

For (j = 0; Je 10; j ++) 
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4.19 


4.22 


4.24 


ali] =ali] *j 

(a) 给 出 代码 中 空间 局 部 性 的 一 个 例子 。 

(b) 给 出 代码 中 时 间 局 部 性 的 一 个 例子 。 

将 附录 4A 中 的 式 (4.1) 和 式 (4.2) 推广 到 N 级 的 存储 器 分 层 结构 。 

计算 机 系统 包含 容量 为 32K x16 位 的 主 存 ， 且 有 4KB 的 cache， 每 组 4 行 ， 每 行 64 个 字 。 假 设 cache 

初始 时 是 空 的， 处理 器 顺序 地 从 存储 单元 0，1，2，…，4351 中 取 数 ， 然 后 它 再 重复 这 一 顺序 9 次 ， 

并 且 cache 比 主 存 快 10 倍 ， 同 时 假设 块 替换 使 用 LRU 算法 。 请 估算 一 下 使 用 cache 后 系统 性 能 的 

改进 。 

考虑 一 个 4 行 且 每 行 16 字 节 的 cache， 主 存 按 每 块 16 字 节 划分 ， 即 块 0 有 地 址 0 到 15 的 16 个 字 节 ， 

等 等 。 现 在 考虑 一 个 程序 ， 它 以 如 下 地 址 顺序 访问 主 存 : 

一 次 : 63 ~70 

循环 10 次 : 15 ~32，80 ~95 

(a) 假设 cache 采用 直接 映射 技术 。 主 存 块 0，4，… 指 派 到 行 0; 块 1，5，… 指 派 到 行 1; 依次 类 推 。 
请 计算 命中 率 。 

(b) 假设 cache 采用 二 路 组 相 联 映射 技术 ， 共 有 两 组 ， 每 组 两 行 。 偶 序号 块 被 指派 到 组 0， 奇 序号 块 
被 指派 到 组 1。 请 计算 使 用 LRU 替换 策略 的 二 路 组 相 联 cache 的 命中 率 。 

考虑 有 下 列 参 数 的 存储 器 系统 : 

T. =100ns C, =10“ 美 元 /位 
T„ =1200ns C, =10 美元 /位 

(a) 1MB 主 存 的 价格 是 多 少 ? 

(b) 使 用 cache 技术 的 1MB 主 存 的 价格 是 多 少 ? 

(c) 如 果 该 存储 系统 的 有 效 存 取 时 间 比 cache 存 取 时 间 大 10% ， 则 其 命中 率 是 多 少 ? 

(a) 考虑 一 个 存 取 时 间 为 1ns、 命 中 率 H =0.95 的 LI cache。 假 设 我 们 能 修改 此 cache 的 设计 (cache 
容量 、cache 组 织 ) ， 从 而 使 命中 率 互 提升 到 0.97 ， 但 也 使 存 取 时 间 增 大 到 1.5ns。 若 要 改善 此 设 
计 性 能 ， 则 这 个 改变 必须 满足 什么 条 件 ? 

(b) 解释 这 个 结果 为 什么 有 直观 意义 。 

考虑 一 个 单 级 cache， 其 存 取 时 间 是 2.5ns, 行 大 小 是 64 字 节 ， 命 中 率 末 =0.95 。 主 存 使 用 块 传送 ， 第 

一 个 字 (4 字 节 ) 存 取 时 间 是 50ns， 其 后 的 每 个 字 存 取 时 间 是 5ns。 

(a) 出 现 一 次 cache 缺失 的 存 取 时 间 是 多 少 ? 假设 此 时 cache 等 待 ， 直 到 此 行 从 主 存 取 来 ， 然 后 才 作 
为 命中 而 重复 执行 。 

(b) 假定 行 大 小 增 大 到 128 字 节 时 ， 命 中 率 五 提升 到 0.97， 这 是 否 降低 了 平均 存储 器 存 取 时 间 ? 

计算 机 有 cache、 主 存 和 用 于 虚拟 存储 器 的 磁盘 。 若 所 访问 的 字 在 cache 中 ， 则 存 取 它 只 需要 20ns。 

若 该 字 在 主 存 中 而 不 在 cache 中 ， 则 需要 60ns HERA cache， 然 后 再 从 cache 中 存 取 。 若 该 字 不 在 主 

存 中 ， 则 需要 12ms 将 它 由 磁盘 取 来 装 入 主 存 ， 再 用 60ns 将 它 复 制 到 cache， 最 后 从 cache 存 取 。 

cache 命中 率 是 0.9， 主 存 命中 率 是 0.6， 那 么 此 系统 访问 一 个 字 的 平均 存 取 时 间 是 多 少 (以 ns 为 单 

位 )? 

考虑 一 个 行 大 小 为 64 字 节 的 cache。 假 定 cache 中 平均 30% 的 行 是 脏 数据 。 一 个 字 由 8 个 字 节 组 成 。 

(a) 假定 缺失 率 为 3% (0.97 的 命中 率 ) ， 对 于 写 直达 和 写 回 两 个 写 策 略 ， 通 过 每 指令 字 节 数 来 计算 
主 存 的 通信 量 。 由 主 存 读 和 人 cache 是 一 次 一 行 ; 然而 ， 对 写 回 策略 ， 一 个 单字 能 由 cache 写 到 
主 存 。 

(b) 若 缺 失 率 为 5% ， 重 复 问 题 (a) 。 

(c) 若 缺 失 率 为 7% ， 重 复 问题 (a) 。 

(d) 由 这 些 结果 你 能 得 出 什么 结论 ? 

在 Motorola 68020 微 处 理 器 上 ， 一 次 cache 存 取 占用 两 个 时 钟 周 期 。 而 在 无 等 待 状态 插入 的 情况 下 ， 

由 主 存 经 总 线 到 处 理 器 的 数据 存 取 占 用 3 个 时 钟 周期 ， 且 数据 并 行 地 交 给 处 理 嚣 和 cache, 

(a) 给 定 命中 率 为 0.9 和 时 钟 速率 为 16.67MHz， 请 计算 存储 器 周期 的 实际 长 度 。 

(b) 假定 每 个 存储 器 周期 插入 两 个 等 待 状态 (1 个 等 待 状态 为 1 个 时 钟 周 期 )， 重 复 上 问 的 计算 。 由 
这 些 结果 你 能 得 出 什么 结论 ? 
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4.25 ”假定 一 个 处 理 器 具有 300ns 的 存储 器 周期 时 间 和 MIPS 的 指令 处 理 速率 。 平 均 而 言 ， 每 条 指令 要 求 一 
个 总 线 存储 器 周期 用 于 取 指 令 ， 另 要 求 一 个 周期 用 于 指令 所 涉及 的 操作 数 。 
(a) 试 计算 处 理 器 的 总 线 利用 率 。 
(b) 假设 此 处 理 器 配备 了 一 个 指令 cache， 其 相应 的 命中 率 为 0.5。 试 确定 这 对 总 线 利用 率 的 影响 。 
4.26 ”一 个 单 级 cache 系统 的 读 操作 性 能 可 用 下 式 来 表征 : 
T,=T,+ (1-H) T, 
其 中 ，7 是 平均 存 取 时 间 ，7, 是 cache 存 取 时 间 ，7, 是 存储 器 存 取 时 间 ( 主 存 到 处 理 器 寄存 器 )，H 
是 命中 率 。 为 简单 起 见 ， 假 定 字 是 并 行 装 人 到 cache 和 处 理 器 寄存 器 的 。 上 式 是 与 等 式 4.2 相同 的 
格式 。 
(a) 定义 : T, = 在 cache 和 主 存 之 间 传 送 一 行 的 时 间 ， 歼 = 在 所 有 访问 中 ， 写 访问 占 的 比率 。 试 使 用 
写 直 达 策 略 ， 改 写 上 式 使 之 既 考 虑 到 读 也 考虑 到 写 。 
(b) 定义 W, 为 cache 中 的 一 行 已 被 修改 的 概率 ， 试 为 写 回 策略 提供 一 个 7, SX. 
4.27 ”对 一 个 有 两 级 cache 的 系统 ， 定 义 : 
Ta = 第 一 级 cache 存 取 时 间 ; 
Ta = 第 二 级 cache 存 取 时 间 ; 
7, = 存储 器 存 取 时 间 ; 
H, = 第 一 级 cache 命中 率 ; 
H, = 组 合 的 第 一 /二 级 cache 命中 率 。 
请 对 读 操作 给 出 T, 等 式 。 
4.28 假定 cache 读 缺 失 有 如 下 性 能 特征 : 用 1 个 时 钟 周期 发 送 地 址 到 主 存 和 用 4 个 时 钟 周期 由 主 存 读 取 一 
个 32 位 字 传送 给 处 理 器 和 cache, 
(a) # cache 行 大 小 是 1 个 字 ， 缺 失 开 销 是 多 少 〈 即 为 读 所 要 求 的 附加 时 间 )? 
(b) # cache 行 大 小 是 4 个 字 ， 并 执行 多 字 的 非 突 发 式 块 传送 ，cache 的 缺失 开销 是 多 少 ? 
(c) 若 cache 行 大 小 是 4 个 字 ， 并 执行 突 发 式 块 传送 ， 传 送 每 个 字 用 1 个 时 钟 周 期 ， 读 缺失 开销 是 
多 少 ? 
4.29 上 题 的 cache 设计 中 ， 若 行 大 小 由 1 个 字 增 加 到 4 个 字 ， 则 导致 读 缺 失 率 由 3.2% FEE] 1.1% 。 对 于 
两 种 行 大 小 ， 计 算 突 发 式 和 非 突 发 式 两 种 传送 的 平均 读 缺 失 代价 。 


附录 4A ”两 级 存储 器 的 性 能 特点 


本 章 介绍 了 作为 处 理 器 与 主 存 之 间 缓 冲 器 的 高 速 缓存 ， 创 建 了 两 级 内 部 存储 器 。 这 种 两 级 存储 结构 控 
讨 了 被 称 为 局 部 性 的 特性 ， 与 单 级 存储 器 相 比 ， 它 提高 了 性 能 。 

主 存储 器 高 速 缓存 机 制 是 计算 机 体系 结构 的 一 部 分 ， 它 由 硬件 实现 ， 而 且 通 常 对 操作 系统 是 透明 的 。 
还 有 另外 两 种 二 级 存储 器 的 方法 也 利用 了 局 部 性 特征 ， 并 且 它 们 是 〈 至 少 是 部 分 ) 由 某 些 操作 系统 实现 的 : 
虚拟 存储 器 和 磁盘 高 速 缓存 (如 表 4-7 所 示 ) 。 虚 拟 存储 器 将 在 第 8 章 中 讨论 ， 磁 盘 高 速 缓存 则 超出 了 本 书 
的 讨论 范围 ， 但 参考 文献 [STAL05 ] 对 它 进行 了 考察 。 在 本 附录 中 ,我 们 考虑 这 3 种 方法 所 共有 的 两 级 存 
储 器 的 性 能 特点 。 


表 4-7 ”两 级 存储 器 的 特性 


























主 存储 器 cache 虚拟 存储 器 (分 页 ) 磁盘 cache 
典型 的 存 取 时 间 比 5:1 ( 主 存 比 cache) 106:1 ( 主 存储 器 比 磁盘 ) 10°: 1( 主 存储 器 比 磁盘 ) 
存储 管理 系统 由 专门 硬件 实现 硬件 和 系统 软件 的 结合 系统 软件 
典型 的 块 或 页 大 小 ee pe | Oe ae eee eee 


储 器 页 ) 或 页 ) 
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4A.1 局 部 性 
两 级 存储 器 性 能 优越 性 的 基础 是 访问 的 局 部 性 原理 (参见 [DENN68 ] ) 。 该 原理 表明 ， 存 储 器 要 访问 的 
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数据 多 集中 在 某 个 局 部 (BUR) 。 虽 然 在 较 长 的 时 间 里 使 用 的 复 (cluster) 会 改变 ， 但 在 短 时 间 内 处 理 器 会 
集中 访问 几 个 固定 的 得。 l 

显然 ， 局 部 性 原理 是 有 意义 的 ， 考 虑 如 下 理由 : 

(1) 除了 分 支 和 调用 指令 (它们 只 占 所 有 程序 指令 的 一 小 部 分 ) 以 外 ， 程 序 的 执行 是 顺序 的 。 因 此 ， 
在 大 多 数 情 况 下 ， 下 一 次 要 取 的 指令 紧 跟着 上 一 次 取得 的 指令 。 

(2) 很 长 的 无 中 断 的 子 程序 调用 序列 后 跟着 相应 数量 的 返回 的 情况 是 很 少 的 。 程 序 通 常 限制 在 一 个 较 
窄 的 子 程序 调用 深度 的 窗口 内 ， 因 此 ， 在 短 时 间 内 ， 指 令 的 访问 趋向 于 局 限 在 几 个 子 程序 中 。 

(3) 所 有 和 迭代 结构 由 相对 较 少 的 指令 组 成 ， 他 们 重复 运行 多 次 。 在 和 迭代 期 间 ， 计 算 限 制 于 一 小 段 程 
序 中 。 

(4) 在 许多 程序 中 ， 很 多 计算 涉及 数据 结构 的 处 理 ， 例 如 数组 或 顺序 的 记录 。 许 多 情况 下 ， 对 这 些 数 
据 结构 中 相继 访问 的 数据 也 是 连续 存放 的 。 

这 些 理由 在 许多 研究 中 得 到 了 证 实 。 例 如 ， 让 我 们 考虑 第 (1) 点 。 许 多 研究 分 析 了 高 级 语言 程序 的 行 
为 。 下 面 的 研究 统计 了 在 执行 中 各 种 高 级 语言 出 现 的 频 度 ， 表 4-8 包含 了 关键 的 结果 。Knuth [KNUT71] 最 
早 研 究 了 程序 设计 语言 的 行为 ， 他 考察 了 一 组 用 做 学 生 练习 的 FORTRAN 程序 。Tanenbaum [TANE78] 公布 
了 从 300 多 个 过 程 中 收集 的 统计 结果 ， 这 些 过 程 来 自 操作 系统 程序 ， 而 且 以 支持 结构 化 程序 设计 (SAL) 的 
语言 写成 。Patterson 和 Sequein [ PATT82a] 分 析 了 一 组 来 自 编译 器 和 用 于 排版 、 计 算 机 辅助 设计 (CAD), 
排序 和 文件 比较 程序 的 统计 结果 。 他 们 研究 的 是 Pascal 和 C 语言 。Huck [ HUCK83] 分 析 了 4 个 用 于 代表 通 
用 科学 计算 的 程序 ， 它 们 包括 快速 傅 里 叶 变换 和 微分 公式 的 综合 系统 。 从 这 些 不 同 的 语言 和 应 用 得 到 的 结 
果 有 着 较 好 的 一 致 性 。 它 们 表明 ， 在 一 个 程序 的 执行 期 间 ， 分 支 和 调用 只 占 执行 指令 的 一 小 部 分 。 因 此 ， 
这 些 研 究 结果 证 实 了 上 面 的 第 (1) 点 。 


表 4-8 高 级 语言 操作 的 相对 动态 额度 























































参考 文献 [ HUCK83 ] [ KNUT71] [TANE78] 
语言 Pascal FORTRAN ë | SAL 
工作 负载 科学 计算 学 生 练习 系统 程序 系统 程序 
Assign (赋值 ) 74 | 67 38 | 42 
Loop (循环 ) 4 | 3 3 | 4 
Call (调用 ) A: 1 3 12 | 12 
IF (条 件 判 断 ) 20 11 43 36 
GOTO (转移 ) = 一 3 一 
Other (其 他 ) 











对 于 第 (2) 点 ,参考 文献 [PATT85a] 的 研究 报告 提供 了 证 实 。 图 4-21 对 其 进行 了 说 明 ， 它 显示 了 调 
用 返回 的 行为 。 每 次 调用 由 向 右 下 倾斜 的 线段 表示 ， 而 每 次 返回 由 向 右上 倾斜 的 线段 表示 。 图 中 定义 了 一 


时 间 (调用 / 返回 的 单位 ) 


Pn LL dlae 





图 4-21 程序 调用 /返回 行为 的 实例 
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个 宽度 为 5 的 窗口 。 只 有 在 某 个 方向 上 净 移 动 为 6 的 调用 和 返回 序列 才 会 引起 窗口 的 移动 。 正 如 我 们 所 见 到 
的 ， 程 序 的 执行 能 够 在 一 个 固定 的 窗口 内 停留 很 长 时 间 。 对 C 和 Pascal 程序 的 研究 表明 ， 深 度 为 8 的 窗口 的 
移动 只 占 调 用 和 返回 次 数 的 不 到 1% [TAMI83 ] 。 

文献 中 常 将 局 部 性 区 分 为 空间 局 部 性 和 时 间 局 部 性 。 空 间 局 部 性 (spatial locality) 是 指 程序 执行 涉及 大 
量 成 篮 的 存储 位 置 的 倾向 性 。 空 间 局 部 性 既 反 映 了 处 理 器 顺序 访问 指令 的 倾向 性 ， 也 反映 了 程序 顺序 访问 
数据 单元 的 倾向 性 ， 例 如 处 理 一 个 数据 表 时 。 时 间 局 部 性 (temporal locality) 是 指 处 理 器 访问 刚 被 使 用 的 存 
储 位 置 的 倾向 性 ， 例 如 ， 执 行 一 个 循环 时 ， 处 理 器 重复 地 执行 同一 组 指令 。 

传统 上 ， 通 过 将 最 近 刚 使 用 的 指令 和 数据 保存 在 cache 中 并 利用 cache 层次 结构 来 开拓 时 间 局 部 性 。 而 
通过 使 用 较 大 cache 块 并 将 预 取 机 制 〈 预 取 期 望 用 到 的 项 ) 纳入 cache 控制 逻辑 来 开拓 空间 局 部 性 。 近 来 ， 
出 现 了 相当 多 的 关于 精炼 这 些 技 术 以 便 更 大 地 提高 性 能 的 研究 ， 但 是 基本 策略 还 是 一 样 的 。 


4A.2 两 级 存储 器 的 操作 


可 以 按 两 级 存储 器 的 形式 来 利用 局 部 性 特征 。 与 低 一 级 存储 器 (M2) 相 比 ， 高 一 级 存储 器 (M1) 更 
小 、 更 快 、 更 贵 (每 一 位 )。MI1 用 作 临 时 存储 器 ， 用 来 存放 M2 的 部 分 内 容 。 当 访问 存储 器 时 ， 先 试图 访问 
M1 中 相应 的 项 ， 如 果 成 功 ， 则 实现 了 一 次 快速 访问 ; 否则 ， 块 得 从 M2 复制 到 M1， 然 后 再 通过 M 访问 。 
根据 局 部 性 原理 ,一旦 某 个 块 放 入 M1， 将 会 对 这 个 块 的 单元 访问 多 次 ， 这 使 得 总 体 服 务 速度 变 快 。 

为 了 表示 访问 一 个 项 的 平均 时 间 ， 不 但 必须 考虑 两 级 存储 器 的 速度 ， 而 且 要 考虑 某 次 访问 能 在 Ml 中 找 
到 的 概率 。 有 : 

T, =HxT,+(1-4) x(T, +T,) 
=T, +(1-H) xT, (4.2) 
其 中 : 7, = (系统 ) 平均 存 取 时 间 
T, = M1 (例如 ， 高 速 缓存 、 磁 盘 高 速 缓存 ) 的 存 取 时 间 
T, = M2 (例如 ， 主 存储 器 、 磁 盘 ) 的 存 取 时 间 
五 = 命中 率 (在 Ml 中 找到 所 需 信 息 的 概率 ) 

图 4-2 显示 了 平均 存 取 时 间 随 命中 率 的 变化 函数 。 可 见 ， 对 于 较 高 的 命中 率 ， 平 均 访 问 时 间 更 接近 于 

M1 ， 而 不 是 M2 。 


4A.3 性 能 
下 面 考虑 与 两 级 存储 器 机 制 相关 的 一 些 参 数 。 首 先 考虑 价格 ， 有 如 下 计算 公式 : 
c £151 + GS; 
i a (4.3) 


其 中 : C, = 两 级 存储 器 的 每 位 平均 价格 
C, = 高 一 级 存储 器 Ml 的 每 位 平均 价格 
C, = 低 一 级 存储 器 M2 的 每 位 平均 价格 
S, = M1 的 容量 
S, =M2 的 容量 
我 们 希望 C,~C,, HFC >C, BOR S <<S,, 4-22 显示 了 这 一 关系 。 
下 面 考虑 访问 时 间 。 由 于 两 级 存储 器 显著 地 改进 了 性 能 ， 我 们 需要 让 了 WEF TT =T). ABT, tt 
7, 小 得 多 (T, <<T,), ， 所 以 需要 命中 率 接近 于 1 。 
因此 ， 我 们 希望 MI 小 ， 以 降低 价格 ; 又 希望 它 大 ， 因 为 这 样 才能 提高 命中 率 ， 从 而 改进 性 能 。 是 否 存 
在 一 个 在 合理 的 范围 内 满足 这 两 种 要 求 的 容量 呢 ? 回答 这 个 问题 需 解 决 以 下 几 个 子 问题 。 
。 为 使 7, 近似 等 于 7 需要 什么 样 的 命中 率 ? 
。 MI 的 容量 为 多 少 才能 确保 需要 的 命中 率 ? 
。 是 否 这 一 容量 满足 了 价格 要 求 ? 
为 达到 这 个 目的 ， 考虑 数量 7,/T,， 称 为 存 取 有 效 性 。 它 表示 了 平均 访问 时 间 (7,) 与 Ml 访问 时 间 
(T) 的 近似 程度 。 从 公式 (4.2) 可 得 : 


Ti 1 
T, p Tei 7 (4.4) 
+ 一 T, 
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图 4-22 ”两 级 存储 器 中 平均 存储 器 成 本 和 相对 存储 容量 之 间 的 关系 


图 4-23 画 出 了 T/T, 与 命中 率 五 的 关系 函数 ， 数 量 7,/T, 作为 参数 。 通 常 ， 片 上 cache 的 存 取 时 间 比 主 
存 的 存 取 时 间 快 25 ~50 4% (EP T,/T, 45 ~10), Hb cache 的 存 取 时 间 比 主 存 的 存 取 时 间 快 5~15 倍 〈 即 
T,/T, 为 S~15) ， 而 主 存储 器 的 存 取 时 间 比 磁盘 快 大 约 1000 4% (7,/T, =1000)。 因 此 ,命中 率 在 近 于 0.9 


左右 的 范围 即 能 满足 性 能 要 求 。 
l 


0.1 


=P 


访问 效率 
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命中 率 =H 
图 4-23 ”访问 效率 与 命中 率 的 函数 关系 (r=T,/T,) 
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现在 我 们 能 够 更 确切 地 表述 相对 的 存储 器 容量 的 问题 。 是 否 命中 率 为 0.8 以 上 就 可 以 使 S << 5,? 这 将 
依赖 于 许多 因素 ， 它 们 包括 所 执行 软件 的 特性 和 两 极 存储 器 的 设计 细节 。 具 有 决定 性 的 因素 是 局 部 性 的 程 
度 。 图 4-24 为 局 部 性 对 命中 率 的 效果 。 显 然 ， 如 果 M 与 M2 的 容量 相同 ， 那 么 命中 率 为 1.0。 因 为 所 有 M2 
的 内 容 都 存储 在 M1 中 。 现 在 假设 没有 局 部 性 ， 也 就 是 说 ， 访 问 完 全 是 随机 的 。 在 这 种 情况 下 ， 命 中 率 是 相 
对 存储 器 容量 的 严格 线性 函数 。 例 如 ， 如 果 M 是 M2 容量 的 一 半 ， 那 么 任何 时 刻 M2 的 一 半 内 容 在 MI 中 ， 
命中 率 为 0.5。 实 际 上 ， 访 问 总 是 存在 一 定 程度 的 局 部 性 。 中 等 局 部 性 和 强 局 部 性 的 影响 都 在 图 中 描述 。 注 意 ， 
4-24 不 是 从 任何 特殊 的 数据 或 模型 中 推导 得 出 的 ， 而 是 该 图 揭示 了 随 局 部 性 程度 的 不 同性 能 也 会 不 同 。 
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图 4-24 命中 率 和 相对 存储 容量 的 函数 关系 


因此 ， 如 果 存 在 较 强 的 局 部 性 ， 即 使 上 层 存储 器 的 容量 较 小 ， 也 能 达到 高 的 命中 率 。 例 如 ， 很 多 研究 
表明 ， 即 使 很 小 的 高 速 缓存 也 能 产生 高 于 0.75 的 命中 率 ， 不管 主 存 的 容量 是 多 少 (参见 [AGAR89 ] 、 
[ PRZY88]. [STRE83] 和 [SMIT82] ) 。 通 常 高 速 缓存 的 容量 在 1KB 到 128KB 的 范围 就 足够 了 ， 而 现在 的 
主 存 容量 通常 是 以 GB 衡量 。 在 考虑 虚拟 存储 器 和 磁盘 高 速 缓存 时 ， 我 们 引用 的 其 他 研究 结果 证 实 了 同一 现 
象 ， 即 由 于 局 部 性 ， 相 对 小 的 Ml 产生 了 高 的 命中 率 。 

现在 来 回答 前 面 所 列 的 最 后 一 个 问题 : 是否 这 两 种 存储 器 的 相对 容量 满足 价格 要 求 ” 答案 是 肯定 的 。 
如 果 为 了 达到 高 性 能 只 需要 一 个 相对 较 小 的 高 一 级 存储 器 ， 那 么 该 两 级 存储 器 每 位 的 平均 价格 将 接近 于 较 
便宜 的 低 一 级 存储 器 。 

WHER, BWR L cache， 其 至 涉及 12 和 L3 cache， 分 析 将 会 复杂 得 多 。 详 见 [PEIR99] 和 [ HAND98 ] 
的 讨论 。 
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本 章 要 点 


e 半导体 随机 存 取 存 储 器 的 两 种 基本 形式 是 动态 RAM (DRAM) 和 静态 RAM (SRAM), 
SRAM 比 DRAM 存 取 速 度 快 、 价 格 更 昂贵 ， 并 且 集 成 度 较 低 ， 一 般 用 于 cache 存储 器 。 而 
DRAM 则 一 般 用 于 主 存储 器 。 

© 存储 器 系统 中 通常 都 使 用 纠 错 技术 ， 这 包括 添加 一 些 与 原 数 据 位 成 函数 关系 的 元 余 位 来 
构成 纠 错 码 。 如 果 出 现 错误 位 ， 纠 错 码 会 检测 并 通常 能 纠正 该 错误 位 。 

© 为 了 补偿 DRAM 相对 较 低 的 速度 ， 现 已 推出 几 种 先进 的 DRAM 组 织 。 使 用 最 普遍 的 两 种 
是 同步 DRAM 和 总 线 式 DRAM (Rambus DRAM) 。 两 者 都 使 用 系统 时 钟 以 支持 数据 块 
传送 。 

本 章 首先 概要 性 地 讨论 半导体 主 存储 器 子 系统 ， 包 括 ROM, DRAM 和 SRAM 存储 器 ; 然后 

分 析 提 高 存储 器 可 靠 性 的 错误 控制 技术 ; 最 后 介绍 更 先进 的 DRAM 体系 结构 。 


5.1 半导体 主 存储 器 

在 早期 的 计算 机 中 ， 主 存储 器 中 的 随机 存 取 存储 器 最 通用 的 形式 是 使 用 一 组 环形 的 铁 磁 体 
圈 ， 称 为 磁 芯 。 因 此 ， 主 存储 器 通常 称 为 核心 ， 这 一 术语 沿用 至 今 。 在 磁 世 存储 器 消失 以 前 ， 微 
电子 技术 已 经 出 现 了 很 入， 优势 已 很 明显 。 目 前 ， 几 乎 所 有 的 主 存储 器 都 采用 半导体 芯片 。 本 节 
将 讨论 这 一 技术 的 关键 方面 。 
5.1.1 组 织 

半导体 存储 器 的 基本 元 件 是 存储 位 元 。 虽 然 有 各 种 电子 技术 可 采用 ， 但 所 有 的 半导体 存储 
位 元 都 具有 某 些 相似 的 性 质 : 

。 呈现 两 种 稳 态 〈 或 半 稳 态 ) ， 分 别 代 表 二 进 制 的 1 和 0; 

。 能 够 写 和 人 信息 〈 至 少 一 次 ) 来 设置 状态 ; 

© 能 够 读 出 状态 信息 。 Control Control 


图 5-1 是 一 个 存储 位 元 的 操作 示意 图 。 
LE = 
wx | Data-In 
P 






最 普遍 地 ， 每 个 位 元 有 3 个 能 传输 电信 号 的 
功能 端 。 顾名思义 ， Select (选择 ) 端口 用 Select 
于 为 读 或 写 操 作 选 择 一 个 存储 位 元 。Control 






Select 


(控制 ) 端口 指明 是 读 还 是 写 操作 。 对 于 写 a) 写 操作 b) 读 操作 
操作 ， 另 一 端口 Data-In (数据 输入 ) 提供 
设置 位 元 状态 为 1 或 0 的 电信 号 ;对 于 读 操 ee 


fF, Sense (感应 ) 端口 用 于 输出 位 元 的 状态 。 存 储 位 元 的 内 部 结构 、 功 能 、 时 序 的 细节 依赖 于 
所 采用 的 特定 的 集成 电路 技术 ， 这 超出 了 本 书 所 要 介绍 的 范围 ， 只 做 简要 的 总 结 。 我 们 的 目的 是 
给 出 单个 存储 位 元 ， 它 能 被 选择 用 于 读 或 写 操作 。 
5.1.2 DRAM 和 SRAM 

本 章 将 讨论 的 所 有 存储 器 类 型 都 是 随机 存 取 的 ， 即 通过 编排 的 寻 址 逻辑 ， 存 储 器 的 单个 字 
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直接 被 存 取 。 

表 5-1 列 出 了 半导体 存储 器 的 主要 类 型 。 最 常用 的 是 随机 存 取 存储 器 (random-access memo- 
ry，RAM)。 当 然 ， 这 是 术语 误 用 ， 因 为 表 中 列 出 的 所 有 类 型 的 存储 器 都 是 随机 存 取 的 。RAM 的 
明显 特征 是 ， 可 以 方便 快捷 地 从 存储 器 读 取 数 据 和 向 存储 器 写 人 新 数据 ， 且 读 写 操作 都 是 通过 
使 用 电信 和 号 来 完成 的 。 


R51 半导体 存储 器 类 型 





存储 器 类 型 
随机 存 取 存 储 器 (RAM) 读 - 写 存储 器 
只 读 存 储 器 (ROM) 
= 只 读 存 储 器 

可 编程 ROM (PROM) 

可 擦 除 PROM (EPROM) 


电 可 擦 除 PROM ( EEPROM) 
快 内 存储 器 












电 可 擦 除 ， 字 节 级 








不 可 能 


RIP AT BBR, SI ` EBK 
电 可 擦 除 ， 字 节 级 
EUER, RR 











主要 进行 读 操作 的 
存储 器 























RAM 另 一 个 明显 特征 是 易 失 性 。RAM 必须 持续 供电 ,一旦 断 电 ， 数 据 就 会 丢失 。 因 此 ， 
RAM 仅 能 用 于 暂时 存储 。 计 算 机 中 使 用 的 两 种 传统 的 RAM 形式 是 DRAM 和 SRAM, 

1. 动态 RAM 

RAM 技术 分 为 动态 和 静态 两 类 。 动 态 RAM (dynamic RAM, DRAM) 利用 电容 充电 来 存储 
数据 ， 位 元 中 的 电容 有 、 无 电荷 分 别 代表 二 进 制 的 1 或 0。 因 为 电容 器 有 漏电 的 自然 趋势 ， 因 此 
动态 RAM 需要 周期 地 充电 刷新 来 维持 数据 的 存储 。 动 态 一 词 就 是 指 这 种 存储 电荷 丢失 的 趋势 ， 
即使 电源 一 直 在 供电 。 

图 5-2a 是 存储 1 位 信息 的 单个 位 元 的 典型 DRAM 结构 。 当 要 读 出 或 写 入 该 位 元 的 位 值 时 ， 
激励 地 址 线 。 蝇 体 管 像 开 关 一 样 工作 ,如果 有 电压 施加 到 地 址 线 上 ， 唱 体 管 导 通 ; 如 果 无 电压 施 
加 到 地 址 线 上 ， 则 晶体 管 开路 〈 无 电流 通过 ) 。 

对 于 写 操作 ， 一 个 电压 信号 施加 到 位 线 上 : 高 电压 代表 1， 低 电压 代表 0。 然 后 一 个 信号 施 
加 到 地 址 线 ， 允 许 电荷 传输 到 电容 器 。 





直流 电压 
地 址 线 
晶体 管 
T 
位 线 地 
B 
地 
B 地 址 线 B 


a) 动态 RAM (DRAM) 位 元 b) 静态 RAM(SRAM) 位 元 


图 5-2 典型 存储 器 位 元 结构 


2 第 二 部 分 计算 机 系统 


对 于 读 操 作 ， 当 地 址 线 被 选中 时 ， 唱 体 管 导 通 ， 存 储 在 电容 上 的 电荷 被 送出 到 位 线 和 读 出 放 
大 器 。 读 出 放大 器 将 此 电容 电压 与 一 参考 值 进 行 比较 ， 并 确定 位 元 保存 的 是 逻辑 1 还 是 逻辑 0。 
位 元 的 读 出 放 掉 了 电容 上 的 电荷 ， 必 须 重 新 存储 才 算 完 成 本 次 操作 。 

虽然 DRAM 位 元 能 用 来 存储 单一 位 值 (0 或 1), 但 它 本 质 上 是 一 个 模拟 设备 。 因 为 电容 能 
存储 一 定 范 围 内 的 任何 电荷 值 ， 因 此 必须 使 用 一 个 装 值 来 确定 该 电荷 值 代表 的 是 1 还 是 0。 

2. 静态 RAM 

相对 而 言 ， 静 态 RAM (static RAM, SRAM) 是 一 个 数字 设备 ， 它 使 用 与 处 理 器 相同 的 逻辑 
元 件 。 静 态 RAM 采用 传统 的 触发 器 、 邮 辑 门 配置 来 存储 二 进 制 值 〈 请 见 第 20 章 中 有 关 触 发 器 的 
描述 ) 。 只 要 电源 不 断 ，SRAM 将 一 直 保持 它 所 存储 的 数据 。 

图 5-2b 是 单个 位 元 的 典型 SRAM 结构 。4 个 晶体 管 〈T Ta TAT) 交叉 连接 组 成 一 个 
有 稳定 逻辑 状态 的 排列 。 在 逻辑 状态 F, C 点 是 高 电 平 而 C 点 是 低 电 平 ， 此 时 ， 品 体 管 T 和 
T, 截止 , MT, AT, 导 通 。 在 逻辑 状态 0 下 ，C, 点 是 低 电 平 而 C 点 是 高 电 平 ， 此 时 ， 晶 体 管 
TAT Sa, mT, 和 TT 截止。 只 要 直流 电源 一 直 供 电 ， 这 两 个 状态 就 都 是 稳定 的 。 不 同 于 
DRAM， 这 里 不 需要 刷新 来 维持 数据 。 

如 同 DRAM 中 一 样 ，SRAM 地 址 线 用 来 控制 开关 的 通 断 。 这 里 ， 地 址 线 控制 两 个 晶体 管 
和 Ts) ， 当 信号 施加 到 地 址 线 上 时 ， 两 个 品 体 管 导 通 ， 允 许 读 / 写 操 作 。 对 于 写 操 作 ， i 
到 B 线 ,位 值 的 反 施加 到 B 线 ,这 强迫 4 个 晶体 管 (T,、T,、Ts 和 Ti) 进入 一 个 相应 的 稳 态 
对 于 读 操作 ， 位 值 由 B 线 读 出 。 

3. SRAM 与 DRAM 对 比 

静态 与 动态 RAM 都 是 易 失 的 ， 即 二 者 都 要 求 电源 持续 供电 才能 保存 位 值 。 与 静态 存储 器 位 
元 相 比 ， 动 态 存储 器 位 元 要 小 ， 而 且 电 路 更 简单 。 因 此 ， 与 SRAM 相 比 ，DRAM 的 密度 要 高 (BE 
小 的 位 元 = 每 单位 面积 上 更 多 的 位 元 ) ， 且 价格 更 便宜 。 另 一 方面 ，DRAM 要 求 有 支持 刷新 的 电 
路 。 但 是 ， 对 于 较 大 容量 的 存储 器 ，DRAM 位 元 较 低 的 可 变 成 本 足以 补偿 刷新 电路 的 固定 成 本 。 
因此 ，DRAM 更 趋向 于 满足 大 容量 存储 器 的 需求 。 最 后 还 需 指 出 ， 通 常 SRAM 要 比 DRAM 快 。 
由 于 这 些 相对 特征 ，SRAM 一 般 用 于 cache 存储 器 〈 片 上 的 或 片 外 的 ) ， 而 DRAM 则 用 于 主 存 


5.1.3 ROM 类 型 


顾名思义 ， 只 读 存 储 器 (read-only memory, ROM) 含有 不 能 改变 的 永久 性 数据 。ROM 是 非 
易 失 性 存储 器 ， 即 存储 器 中 的 数据 并 不 要 求 供电 来 维持 。ROM 可 读 ， 但 不 能 写 人 新 数据 。ROM 
的 一 个 重要 应 用 是 微 程序 设计 ， 这 将 在 第 四 部 分 讨论 。 其 他 可 能 的 应 用 包括 : 常用 功能 的 子 程序 
库 、 系 统 程序 、 函 数 表 。 

对 于 中 等 规模 的 要 求 ，ROM 的 优点 是 数据 或 程序 可 永久 地 保存 在 主 存 中 ， 绝 不 需要 从 辅 存 
中 调 入 。 

制造 ROM 同 制造 其 他 集成 电路 芯片 是 一 样 的 ， 在 制造 过 程 中 把 数据 固化 到 芯片 上 。 这 存在 
两 个 问题 : 

。 固化 数据 需要 较 大 的 固定 成 本 ， 不 论 是 制造 一 片 还 是 复制 上 千 片 特殊 的 ROM, 

。 无 出 错 处 理 机 会 ， 如 果 一 位 出 错 ， 则 整 批 的 ROM 芯片 只 能 报废 。 

当 只 需要 少量 的 存储 特定 内 容 的 ROM 芯片 时 ， 可 选择 较 廉 价 的 可 编程 ROM (programmable 
ROM, PROM). 。 和 ROM 一 样 ，PROM 是 非 易 失 性 的 ， 但 它 能 写 和 一次， 且 只 能 一 次 。 对 于 PROM, 





OT; AT, 前 面 的 圆圈 表示 信号 反 向 。 
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写 过 程 是 用 电信 和 号 执行 ， 由 供应 商 或 用 户 在 芯片 出 厂 后 写 入 一次。 需要 特殊 设备 来 完成 写 或 
“编程 ”过 程 。PROM 提供 了 灵活 性 和 方便 性 ， 而 ROM 在 大 批量 生产 领域 仍 具 有 吸引 力 。 

只 读 存 储 器 的 另 一 种 变 体 是 主要 进行 读 操作 (read-mostly) 的 存储 器 ， 常 用 于 读 操作 远 多 于 
写 操作 且 要 求 非 易 失 数据 的 应 用 场合 。 常 见 的 主要 进行 读 操作 的 存储 器 有 3 种 : EPROM EEP- 
ROM 和 快 内 存储 器 。 

典型 的 光 可 擦 除 / 可 编程 只 读 存 储 器 (erasable programmable read-only memory, EPROM) 与 
PROM 一 样 可 读 可 写 。 然 而 ， 在 写 人 操作 前 ， 必 须 通 过 让 封装 芯片 暴露 在 紫外 线 辐 射 下 使 所 有 的 
存储 位 元 都 被 擦 除 ， 以 还 原 成 初始 状态 。 擦 除 需 要 通过 让 设计 在 芯片 上 的 窗口 在 强 紫 外 线 下 长 
时 间 照 射 来 完成 。 这 种 擦 除 过 程 可 重复 进行 ， 每 次 擦 除 需 要 约 20 分 钟 。 因 此 ，EPROM 可 以 修改 
Zik, FHA ROM, PROM 一 样 能 够 长 久保 存 数据 。 对 于 等 容量 的 存储 右 来 说 ，EPROM E 
PROM 更 贵 但 它 具 有 可 多 次 改写 的 优点 。 

更 具 吸 引力 的 主要 进行 读 操作 的 存储 器 形式 是 电 可 擦 除 / 可 编程 只 读 存 储 器 (electrically 
erasable programmable read-only memory, EEPROM) 。 这 种 存储 器 在 任何 时 候 都 可 写 和 人 ， 而 无 需 擦 
除 原 先 内 容 ， 且 只 更 新 寻 址 到 的 一 个 或 多 个 字 节 。 写 操作 比 读 操作 时 间 要 长 得 多 ， 每 字 节 需要 几 
百 微 秒 的 时 间 。EEPROM 把 非 易 失 性 和 数据 修改 灵活 的 优点 结合 起 来 ， 修 改 数据 时 只 需要 使 用 
常规 的 控制 、 地 址 和 数据 总 线 。EEPROM 比 EPROM 贵 ， 且 密度 低 ， 支 持 小 容量 芯片 。 

另 一 种 半导体 存储 器 是 快 闪存 储 器 (flash memory) ， 这 是 由 于 其 重 编程 速度 快 而 得 名 。 快 内 
存储 器 在 20 世纪 80 年 代 中 期 首次 推出 ， 其 价格 和 功能 介 于 EPROM 和 EEPROM 之 间 。 与 EEP- 
ROM 相似 ， 快 闪存 储 器 使 用 电 擦 除 技术 ， 整 个 快 内 存储 器 可 以 在 一 秒 或 几 秒 钟 内 被 擦 除 ， 速 度 
比 EPROM 快 得 多 。 另 外 ， 它 能 控 除 存储 器 中 的 某 些 块 ， 而 不 是 整 块 芯片 。 快 内 存储器 用 于 微 世 
片 中 ， 一 次 或 “一 瞬间 ”可 以 只 扩 除 一 部 分 存储 器 位 元 ， 因 此 而 得 名 。 然 而 快 内 存储 器 不 提供 
字 节 级 的 擦 除 。 像 EPROM 一 样 ， 快 内 存储 器 每 位 只 使 用 一 个 晶体 管 ， 因 此 ， 与 EEPROM 相 比 
较 ， 能 获得 与 EPROM 一 样 的 高 存储 密度 。 


5.1.4 芯片 逻辑 


如 同 其 他 集成 电路 产品 ， 半 导体 存储 器 也 是 封装 的 芯片 〈 如 图 2-7 所 示 ) 。 每 块 芯片 包含 一 
组 存储 位 元 阵列 。 

在 整个 存储 器 层次 结构 中 ， 需 要 在 速度 、 容 量 和 价格 之 间 进 行 权 衡 。 当 我 们 考虑 芯片 的 存储 
位 元 组 织 和 功能 逻辑 时 ， 也 要 做 这 些 权 衡 。 对 于 半导体 存储 器 ， 一 个 关键 的 设计 问题 是 每 次 可 以 
读 / 写 数据 的 位 数 。 一 种 极端 的 情况 是 阵列 中 位 元 的 物理 排列 与 存储 器 中 字 的 逻辑 排列 ( 从 处 理 
器 的 角度 看 ) 相同 ， 阵 列 组 织 成 个 字 ， 每 个 字 B 位。 例如 ，16Mb 的 芯片 能 够 组 织 成 1M 的 16 
位 字 。 另 一 种 极端 的 情况 是 所 谓 的 每 芯片 一 位 的 结构 ， 此 时 数据 每 次 只 能 读 / 写 1 位 。 可 以 用 一 
个 DRAM 来 说 明 存储 器 芯片 的 结构 ; ROM 的 结构 与 之 类 似 ， 且 更 简单 。 

图 5-3 表示 了 16Mb DRAM 的 一 种 典型 结构 。 这 种 情况 下 ， 一 次 读 或 写 4 ir, wa, FER 
器 组 织 成 4 个 2048 x 2048 的 方 阵 。 可 以 采用 各 种 物理 排列 。 在 任 一 种 情况 下 ， 阵 列 元 素 由 行 
(row) 控制 线 和 列 (column) 控制 线 连 接 ， 每 根 行 控制 线 连接 到 它 所 在 行 中 每 个 位 元 的 Select 端 
口 ， 而 每 根 列 控制 线 连接 到 相应 列 中 每 个 位 元 的 Data-In/Sense 端口 。 

地 址 线 提供 了 被 选择 字 的 地 址 ， 总 共 需 要 log,W 条 线 。 在 这 个 例子 中 ,需要 11 根 地 址 线 来 
选中 2048 行 中 的 一 行 ， 这 11 根 地 址 线 连接 到 行 译 码 器 的 输入 线 。 行 译 码 器 有 11 根 输入 线 和 
2048 根 输出 线 ， 其 逻辑 依据 11 根 输入 线 的 位 模式 激活 2048 根 输出 线 中 的 一 根 (2" = 2048) 。 

另外 的 11 根 地 址 线 可 选中 2048 列 中 的 一 列 ， 每 列 由 4 位 组 成 。4 根 数据 线 用 于 与 数据 缓冲 
器 交换 4 位 数据 。 输 入 〈 写 ) 时 ， 每 根 位 线 的 位 驱动 器 根据 相应 数据 线 的 值 被 激活 为 1 或 0; 输 
出 ( 读 ) 时 ， 每 根 位 线 的 值 经 过 读 出 放大 器 ， 传 递 到 数据 线 上 。 行 线 选 择 哪 一 行 的 位 元 参与 读 
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或 写 操作 。 
因为 此 DRAM 每 次 只 有 4 位 位 元 参与 读 / 写 ， 因 此 ， 必 须 将 多 片 DRAM 连接 到 DRAM 控制 器 
上 才能 读 / 写 一 个 字 到 总 线 上 。 


RAS CAS WE OE 


A10 


DITI 
BOW 





图 5-3 典型 的 16Mb DRAM (4M x4) 


注意 ，11 根 地 址 线 (A0 ~ A10) 只 是 选中 2048 x 2048 阵列 所 需 地 址 位 数 的 一 半 ， 这 样 做 是 
为 了 节省 引 脚 数 。22 根 需要 的 地 址 线 通过 外 部 的 选择 逻辑 连接 到 芯片 ， 并 且 被 复 用 为 11 根 地 址 
线 。 首 先 ，11 位 地 址 信号 经 过 芯片 去 定义 阵列 的 行 地 址 ， 然 后 ， 另 11 位 地 址 信号 去 定义 列 地 
址 。 伴 随 着 这 些 信号 有 行 地 址 选 通 (RAS) 信号 和 列 地 址 选 通 (CAS) 信号 ， 为 芯片 提供 时 序 控 
制 信号 。 

写 允 许 (WE) 和 输出 允许 (OE) 引 脚 确定 完成 的 是 写 或 是 读 操作 。 图 5-3 中 未 示 出 的 另外 
两 个 引 脚 是 地 〈V.。) 和 电源 (V.)。 

此 外 ， 地 址 线 的 复 用 和 方 阵 型 行列 结构 ， 导 致 每 出 现 新 一 代 存 储 器 芯片 ， 其 容量 就 以 4 倍 的 
方式 增长 。 每 增加 一 个 专用 的 地 址 引 脚 ， 便 使 行 地 址 和 列 地 址 的 指示 范围 加 倍 ， 因 此 存储 器 芯片 
的 容量 以 4 的 倍数 增长 。 

图 5-3 中 还 包含 了 刷新 电路 ， 所 有 的 DRAM 都 需要 刷新 操作 。 实 际 上 ， 简 单 的 刷新 技术 是 使 
DRAM 芯片 丧失 读 写 能 力 而 刷新 所 有 数据 位 元 。 刷 新 计数 器 遍历 通过 所 有 的 行 值 。 对 每 一 行 ， 刷 
新 计数 器 的 值 被 当 作 行 地 址 输出 到 行 译 码 器 ， 并 且 激活 RAS 线 ， 数 据 被 读 出 后 又 写 回 原 地 址 ， 
从 而 使 得 相应 行 的 所 有 位 元 被 刷新 。 


5.1.5 芯片 封装 


如 同 第 2 章 所 述 ， 集 成 电路 封装 成 组 件 ， 并 包含 有 与 外 界 相连 接 的 引 脚 。 

图 5-4a 是 一 个 EPROM 组 件 的 例子 ， 它 是 一 个 1M x8 的 8Mb 芯片 组 织 。 此 时 ， 这 种 组 织 被 
看 成 由 单个 芯片 提供 整个 字 (one-word-per-chip) 的 形式 。 芯 片 组 件 包括 32 个 引 脚 ， 属 于 标准 的 
芯片 组 件 斥 寸 ， 其 引 脚 包含 了 下 列 信和 号 线 : 

。 被 访问 字 的 地 址 。 对 于 1M 字 ， 总 共 需 要 20 (2”=1M) 根 引 脚 (A0 ~ A19), 

。 读 出 的 数据 ， 包 含 8 根 线 (D0 ~ D7 ) 。 
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电源 CV...) 。 
地 线 (V,)。 
芯片 允许 (CE) 引 脚 。 因 为 可 能 有 多 个 存储 器 芯片 ， 每 片 都 连接 到 相同 的 地 址 总 线 ，CE 
引 脚 用 于 指示 地 址 线 上 的 地 址 对 本 芯片 是 否 有 效 。CE 引 脚 由 连接 到 地 址 总 线 的 高 序 位 
(如 高 于 A19 的 地 址 位 ) 的 逻辑 激活 。 该 信号 的 使 用 将 在 后 面 说 明 。 

程序 电压 (Ve), Emte (GRE) 时 提供 。 

图 5-4b 给 出 了 一 个 典型 的 DRAM 引 脚 结构 ， 此 16Mb 芯片 的 结构 为 4M x4。 它 与 ROM 世 

有 所 不 同 。 由 于 RAM 能 修改 ， 因 此 其 数据 引 脚 兼备 输入 、 输 出 功能 。 写 允许 (WE) 和 输出 允 
VF (OE) 引 脚 指明 是 写 操 作 或 是 读 操 作 。 因 为 DRAM 是 由 行 和 列 存 取 ,并且 地 址 是 多 路 复 用 
的 ， 所 以 只 需要 11 根 地 址 引 脚 来 指定 4M 的 行 / 列 组 合 (2”x2”=2”)。 行 地 址 选 通 (RAS) 和 
列 地 址 选 通 (CAS) 引 脚 的 功能 前 面 已 讨论 过 ， 这 里 不 再 赣 述 。 最 后 ， 还 有 一 个 无 连接 (NC) 
引 脚 ， 以 使 引 脚 数 凑 成 偶数 。 







gg 
1Mx8 ， 
2 





-n 25 
| o 32 引 肢 双 列 
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a) 8Mb EPROM b) 16Mb DRAM 


图 5-4 典型 存储 器 组 件 的 引 脚 和 信和 号 


5.1.6 ”模块 组 织 


如 果 一 个 RAM 芯片 仅仅 包含 每 个 字数 据 的 一 位 ， 那 么 ， 所 需 的 芯片 数 很 显然 至 少 等 于 每 字 
的 位 数 。 例 如 ， 图 5-5 表示 了 一 个 包含 256K 个 8 位 字 的 存储 模块 的 组 织 形 式 。 对 于 256K 字 ， 需 
要 18 根 地 址 线 ， 它 们 从 外 部 提供 给 存储 模块 〈 例 如 ， 总 线 上 的 地 址 线 连 到 存储 模块 ) 。 地 址 输 
入 到 8 个 256K x1 位 的 芯片 ， 每 片 提供 1 位 的 输入 /输出 数据 。 

只 要 存储 器 容量 等 于 每 个 芯片 的 位 数 就 可 以 采用 这 种 结构 。 当 要 求 更 大 容量 的 存储 器 时 ， 
则 需要 芯片 的 阵列 。 图 5-6 表示 1M 字 的 存储 器 一 种 每 字 8 位 的 结构 。 在 此 种 情况 时 ， 有 4 列 芯 
片 ， 每 一 列 都 包含 如 图 5-5 所 示 的 256K 字 。 对 于 1M 字 ， 需 要 20 根 地 址 线 ， 其 中 低 18 位 连接 到 
所 有 的 32 个 模块 。 高 2 位 输入 到 组 选择 逻辑 模块 ， 由 它 向 4 列 模块 的 某 一 列 发 送 芯 片 允 许 信 号 。 
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存储 器 地 址 
寄存 器 (MBR) 









存储 器 缓冲 
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图 5-5 256KB 存储 器 组 织 


位 1 
le 9 x 512 位 ， 


双 态 位 元 














图 $56 1MB 存储 器 组 织 





5.1.7 多 体 交 叉 存 储 器 


主 存储 器 由 多 块 DRAM 芯片 组 成 ， 大 量 的 芯片 能 组 合 形成 存储 体 
(memory bank) ， 可 以 将 多 个 存储 体 组 织 成 多 体 交 又 存储器。 每 一 个 存 | 多 体 交 又 存储 器 模拟 器 
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储 体 可 以 独立 提供 存储 器 的 读 或 写 服务 ， 因 此 ， 一 个 包含 天 个 存储 体 的 系统 能 够 同时 满足 天 个 
存 取 需求 ， 使 存储 器 的 读 / 写 速度 增加 到 原来 的 K 倍 。 如 果 存 储 器 的 一 系列 连续 字 存 放 在 不 同 的 
存储 体 中 ， 则 传输 一 个 内 存 块 的 速度 会 明显 加 快 。 附 录 详细 探讨 了 多 体 交 又 存 储 器 。 


5.2 2% 


半导体 存储 系统 会 出 现 差错 ， 差 错 可 以 分 为 硬 故 障 和 软 差 错 两 类 。 硬 故障 (hard failure) 是 
永久 性 的 物理 故障 ， 以 至 于 受 影响 的 存储 单元 不 能 可 靠 地 存储 数据 ， 成 为 固定 的 “1” 或 “0” 
故障 ， 或 者 在 0 和 1 之 间 不 稳定 地 跳 变 。 硬 故障 可 由 恶劣 的 环境 、 制 造 缺 陷 和 旧 损 引起 。 软 差错 
(soft error) 是 随机 非 破 坏 性 事件 ， 它 改变 了 某 个 或 某 些 存储 单元 的 内 容 ， 但 没有 损坏 存储 器 。 
软 差 错 可 以 由 电源 问题 或 a 粒子 引起 ， 这些 粒子 起 因 于 放射 性 衰减 ， 它 们 非常 普遍 ， 因 为 几乎 
所 有 材料 中 都 有 少量 的 放射 性 物质 。 硬 故障 和 软 差错 显然 都 不 受 欢 迎 ， 因 此 ， 大 多 数 的 现代 主 存 
储 器 系统 都 包含 了 查 错 和 纠 错 的 逻辑 。 

图 5-7 给 出 了 一 般 情况 下 的 处 理 过 程 。 当 数据 读 入 存储 器 时 ， 对 数据 进行 某 种 计算 (用 函数 
SRR) 以 产生 一 个 校 验 码 ， 校 验 码 和 数据 同时 存储 。 因 此 ， 如 果 存 储 的 数据 字 长 是 M 位 ， 而 校 
验 码 长 是 位 ， 则 实际 存储 的 字 长 是 M+K 位 。 

当 原 先 存储 的 字 被 读 出 时 ， 这 个 校 验 码 用 于 查 错 ， 甚 至 可 能 纠 错 。 从 M 位 数据 中 产生 一 组 
新 的 K 位 代码 ， 并 与 取出 的 校 验 码 位 进行 比较 ， 比 较 后 产生 以 下 3 种 结果 之 一 : 

e 没有 检测 到 差错 ， 取 出 的 数据 位 传送 出 去 。 

。 检测 到 差错 ， 并 且 可 以 纠正 。 数 据 位 和 纠 错位 一 起 送 和 纠正 器 ， 然 后 产生 一 组 正确 的 M 

位 数据 发 送出 去 。 

。 检测 到 差错 ， 但 无 法 纠正 ， 报 告 这 种 情况 。 

用 这 种 方式 操作 的 代码 称 为 纠 错 码 (error correcting code) 。 纠 错 码 以 在 字 中 能 检测 并 纠正 的 
出 错位 数 来 表征 。 


出 错 信号 





图 5-7 纠 错 码 功能 


最 简单 的 纠 错 码 是 汉 明 码 ( Hamming code)， 它 由 贝尔 实验 室 的 理 查 德 - 汉 明 发 明 。 图 5-8 
采用 维 恩 图 来 说 明 汉 明 码 在 4 位 字 (M=4) 上 的 使 用 。 由 3 个 相交 的 圆 ， 分 割 成 7 部 分 ， 将 数 
据 的 4 位 分 配给 内 部 的 4 部 分 (如 图 5-8a 所 示 ) ， 其 余 的 部 分 填 人 奇偶 校 验 位 〈parity bit) 。 选 择 
适当 的 校 验 位 ， 使 得 每 个 圆圈 中 1 的 总 数 是 偶数 (如 图 5-8b 所 示 )。 由 于 圆 A 包括 了 3 个 “1”， 
因此 ， 这 个 圆 中 奇偶 位 被 设置 成 “1”。 现 在 ， 如 果 数 据 中 有 一 位 出 错 (如 图 5-8c 所 示 )， 则 很 
容易 发 现 。 通 过 检查 奇偶 校 验 位 ， 发 现 圆 A 和 圆 C 中 不 符合 上 述 规则 ， 所 以 确定 出 错位 在 圆 A 
AIBA C 中 ， 而 不 在 圆 B 中 (如 图 5-8d 所 示 )。7 部 分 只 有 1 部 分 是 在 圆 A MA C 中 而 不 在 圆 B 
中 ， 因 此 ， 改 变 此 位 就 纠正 了 错误 。 
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为 了 说 明 所 涉及 的 概念 ， 我 们 将 设计 一 种 检测 和 纠正 8 位 字 中 单个 位 出 错 的 代码 。 

首先 ， 确定 码 长 ， 参 照 图 5-7， 比 较 逻 
辑 接受 两 个 K 位 值 作为 输入 。 通 过 两 个 输入 
的 “ 异 或 ”运算 来 进行 逐 位 比较 ， 结 果 被 
称 为 故障 字 (syndrome word)。 根 据 两 个 输 
入 的 位 是 否 匹 配 ， 确 定 故 障 字 的 每 位 是 0 
或 1。 

因此 ， 故 障 字 有 天 位 宽 ， 其 值 范 围 为 0 
到 2 -1。0 值 表示 没有 检测 到 差错 ; 而 剩 
余 2 -1 个 值 则 指明 当 只 有 一 位 出 错时 ， 出 
错位 是 第 几 位 。 现 在 ， 由 于 差错 可 能 发 生 在 
M 个 数据 位 或 天 个 校 验 位 中 的 任意 一 个 ， 因 
此 必须 有 : 


b) 





ey 


a) A B 
C 
c) 





2%“ -1>M+K 
这 个 公式 给 出 了 纠正 M 位 的 数据 字 中 
单个 位 出 错 所 需 的 位 数 。 例 如 ， 对 于 一 个 8 图 5-8 汉 明 纠 错 码 
位 (M=8) 的 数据 字 ， 我 们 有 
e K=3:2 -1 <8 +3 
e K=4:2* -1 >8 +4 
因此 ，8 个 数据 位 要 求 4 个 校 验 位 。 表 5-2 的 前 三 列 给 出 了 各 种 数据 字 长 所 需 的 校 验 位 数 。 


5-2 带 纠 错 码 的 字 长 增加 情况 















































单 纠 错 单 纠 错 / 双 检 错 
数据 位 校 验 位 。 ”| 增加 的 百分率 (%) 校 验 位 增加 的 百分率 (% ) 
8 4 | 50 5 -A 62.5 

16 5 31.25 6 37.5 
32 6 18.75 7 21.875 
64 7 | 10.94 8 17.5 

128 = 8 6.25 9 7.03 

256 9 352 10 3.91 





为 方便 起 见 ， 我 们 希望 8 位 数据 字 产 生 的 4 位 故障 字 具 有 如 下 特征 : 
© 如 果 故 障 字 全 部 是 0， 则 表示 没有 检测 到 差错 。 
。 如 果 故 障 字 有 和 且 仅 有 1 位 为 1， 则 错误 发 生 在 4 个 校 验 位 中 的 一 位 ， 不 需要 纠正 。 
。 如 果 故 障 字 有 多 位 为 1， 则 故障 位 的 数据 值 指明 出 错 的 数据 位 的 位 置 。 将 这 个 数据 位 取 反 
即 可 纠正 。 
为 获得 这 些 特 征 ， 数 据 位 和 校 验 位 排列 成 12 位 的 字 ， 如 图 5-9 所 示 。 各 位 的 位 置 编号 从 1 ~ 
12， 位 置 号 为 2 的 震 次 方 的 位 置 被 定 为 校 验 位 。 校 验 位 可 用 异 或 操作 (SAO) 计算 如 下 : 


Cl1 =D1 个 D2 四 D4 ® D5 四 D7 
C2 =D1 ® D3 © D4 ® D6 ® D7 
C4 = D2@D3 @D4@ D8 


C8 = DS ®© D6 ® D7 ® D8 


第 5 章 内 部 存储 器 . 109 


四 [ano [om | 
OD aca 
i E ee 





图 5-9 数据 位 和 校 验 位 的 安排 


每 个 校 验 位 对 那些 在 相应 二 进 制 序列 位 置 编 号 为 1 的 每 个 数据 位 位 置 进 行 操作 。 因 此 ， 位 置 
3,5, 7, 9, 11 (D1, D2, D4, DS, D7) 都 在 其 位 置 编号 的 最 低位 包含 一 个 1， 用 来 计算 C1; 
而 位 置 3、6、7 、10 、11 都 在 其 次 低位 包含 一 个 1， 用 来 计算 C2; 如 此 类 推 。 用 另 一 种 方式 来 
看 ， 如 果 位 的 位 置 由 几 个 C; 位 检查 ， 则 ,=n。 例如 , 位置 7 由 处 于 4、2、1 位 置 的 位 检查 ， 
A7=44+2+1, 

让 我 们 用 一 个 例子 来 验证 这 个 方案 。 假 设 一 个 8 位 的 输入 字 为 00111001 ， 数 据 位 D1 在 最 右 
边 ， 计 算 如 下 : 

Cl=1@0@01@1@0=F1 
C2=10@00101@0=1 
C4=00@00100=1 
c8 =1@1@0@0=0 
现在 ， 假 设 数 据 位 3 遇 到 一 个 错误 ， 它 由 0 变 成 为 1。 重 新 计算 校 验 位 ， 有 : 
Cl1=1®@0@0101@0=e=1 
C2=10101@1@0=0 
cC4=00@1@1@0=0 
C8 =10@1@0@0=0 
当 新 的 校 验 位 与 老 的 校 验 位 进行 比较 时 ， 形 成 故障 字 : 
C8 C4 C2 Cl 
Oo 1 BB 1 
® 0 0 0 1 
0 1 1 +0 
结果 是 0110， 表 示 出 错位 是 位 置 6， 即 第 3 个 数据 位 。 

图 5-10 说 明了 上 述 计算 过 程 。8 数据 位 和 4 校 验 位 被 恰当 地 安排 成 12 位 字 ， 其 中 只 有 4 个 
数据 位 的 值 是 1 (图 中 用 阴影 表示 ) 。 将 00111001 数据 字 按 上 述 规则 进行 异 或 运算 ， 产 生 的 汉 明 
码 是 0111， 它 形成 4 个 检测 数据 。 存 储 的 整个 12 位 字 是 001101001111。 现 在 ， 假 设 数 据 的 第 3 
位 ， 也 就 是 整个 12 位 字 的 第 6 位 出 错 ， 它 由 0 变 为 了 1， 则 取出 的 12 位 字 是 001101101111， 其 
中 的 汉 明 码 是 0111。 对 其 中 的 数据 位 按 上 述 规则 进行 异 或 产生 的 新 汉 明 码 是 0001。 将 新 汉 明 码 
与 取出 的 汉 明 码 按 位 异 或 产生 故障 字 0110 ， 该 非 零 结 果 检 测 出 1 位 错 并 指出 第 6 位 出 错 。 

刚才 描述 的 代码 被 称 为 单 纠 错 (single-error-correcting, SEC) 码 。 而 半导体 存储 器 更 常用 的 
是 单 纠 错 双 检 错 (single-error-correcting, double-error-detecting, SEC-DED) 码 。 如 表 5-2 所 示 ， 
SEC-DED 码 与 SEC 码 相 比 ， 多 一 个 附加 位 。 

图 5-11 说 明了 这 种 代码 如 何 对 4 位 数据 字 进 行 工作 。 序 列 显示 ， 如 果 有 两 个 错误 发 生 (如 
”图 5-lle 所 示 ) ， 则 检查 过 程 误 入 歧途 (如 图 5-11d 所 示 ) ， 并 产生 第 3 个 差错 (如 图 $-lle 所 
示 ) ， 使 问题 变 得 糟糕 。 为 了 避免 这 种 情况 ,增加 了 一 个 第 8 位 ， 使 图 中 “1” 的 总 数 为 偶数 。 
于 是 ， 这 个 附加 的 奇偶 校 验 位 捕捉 到 差错 〈 如 图 5-11f 所 示 ) 。 
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图 5-11 汉 明 SEC-DED 码 


纠 错 码 以 增加 复杂 性 为 代价 来 提高 存储 器 的 可 靠 性 。 对 于 每 片 一 位 的 组 织 ， 通 常 采 用 SEC- 
DED 码 。 例 如 ,在 IBM 30xx 的 实现 中 ， 主 存 中 每 64 位 数据 采用 了 8 位 的 SEC-DED 码 。 因 此 ， 
主 存 的 实际 容量 比 用 户 见 到 的 容量 要 大 12% 。VAX 计算 机 的 存储 器 中 每 32 位 采用 7 位 SEC-DED 
码 ， 从 而 有 22% 的 额外 开销 。 一 些 当 代 的 DRAM 为 每 128 位 的 数据 使 用 了 9 个 校 验 位 ， 从 而 有 
7% 的 额外 开销 [SHAR97] 。 


5.3 高 级 DRAM 组 织 


正如 第 2 章 所 述 ， 在 使 用 高 性 能 处 理 器 时 ， 最 严重 的 系统 瓶颈 之 一 是 处 理 器 与 内 部 主 存储 器 
的 接口 ， 该 接口 是 整个 计算 机 系统 最 重要 的 路 径 。 从 几 十 年 前 到 现在 ， 主 存储 器 的 基本 构件 仍然 
是 DRAM 芯片 。 从 20 世纪 70 年 代 早期 起 ，DRAM 结构 一 直 没 有 发 生 任何 显著 的 变化 。 传 统 的 
DRAM 芯片 受 限 于 其 内 部 结构 及 其 与 处 理 器 的 存储 总 线 的 连接 。 

我 们 看 到 ， 解 决 DRAM 主 存储 器 性 能 问题 的 一 种 方法 是 ， 在 DRAM 主 存储 器 和 处 理 器 之 间 
插入 一 级 或 多 级 高 速 SRAM cache, {Ht SRAM H DRAM 贵 得 多 ,扩展 cache 容量 超过 一 定 限 度 
时 ， 将 得 不 偿 失 。 

在 过 去 的 几 年 中 ， 人 们 开发 了 许多 对 基本 DRAM 结构 的 增强 功能 ， 市场 上 也 出 现 了 一 些 产 
品 。 现 在 占据 市 场 的 几 种 方案 是 SDRAM、DDR-DRAM 和 RDRAM， 表 5-3 提供 了 这 几 种 方案 的 性 
能 比较 。 男 一 个 值得 重视 的 方案 是 CDRAM。 本 节 将 一 一 分 析 这 些 方案 。 
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35-3 几 种 DRAM 类 型 的 性 能 比较 
时 钟 频率 (MHz) 传输 率 (GB/s) 存 取 时 间 (ns) 引 脚 数 


SDRAM i 18 168 
DDR ; 12.5 184 


RDRAM 7 12 162 











5.3.1 同步 DRAM 


DRAM 最 广泛 使 用 的 一 种 形式 是 同步 DRAM (synchronous DRAM, SDRAM ) (参见 
[VOGL94 ] ) 。SDRAM 与 传统 的 DRAM (异步 的 ) 不 同 ， 它 与 处 理 器 的 数据 交换 同步 于 外 部 的 时 
钟 信号 ， 并 且 以 处 理 器 /存储 器 总 线 的 最 高 速度 运行 ， 而 不 需要 插入 等 待 状态 。 

在 典型 的 DRAM 中 ， 处 理 器 将 地 址 和 控制 信号 提供 给 存储 器 ， 表 示 存 储 器 中 特定 单元 的 一 
组 数据 应 该 被 读 出 或 写 入 DRAM。 经 过 一 段 延 时 〈 即 存 取 时 间 ) ，DRAM 写 和 或 者 读 出 数据 。 在 
存 取 时 间 延 退 中 ，DRAM 执行 各 种 内 部 功能 ， 如 激活 行 地 址 线 或 列 地 址 线 的 高 电容 ， 读 取 数 据 ， 
以 及 通过 输出 缓冲 将 数据 输出 。 在 这 段 时 延 中 ， 处 理 器 只 能 处 于 等 待 状 态 ， 这 降低 了 系统 的 
性 能 。 

有 了 同步 存 取 机 制 ，DRAM 就 能 在 系统 时 钟 的 控制 下 输入 输出 数据 。 处 理 器 或 其 他 主 控 器 发 
出 指令 和 地 址 信息 ， 它 们 被 DRAM 锁 存 。 然 后 ，DRAM 在 几 个 时 钟 周期 后 响应 。 与 此 同时 ， 在 
SDRAM 处 理 请 求 时 ， 主 控 器 能 安全 地 做 其 他 事情 。 

图 5-12 显示 了 IBM 64 兆 位 的 SDRANM 的 内 部 逻辑 [IBM01] ， 这 是 一 个 典型 的 SDRAM 组 织 
结构 。 表 5-4 给 出 了 芯片 引 脚 分 配 。SDRAM 采用 爆发 方式 来 消除 地 址 建立 时 间 和 第 一 次 存 取 之 
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图 5-12 同步 动态 RAM (SDRAM) 
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后 行 线 和 列 线 的 预 充电 时 间 。 在 爆发 方式 中 ,访问 第 1 位 以 后 ， 一 系列 的 数据 位 能 够 快速 地 随 着 
时 钟 输出 。 当 要 访问 的 所 有 位 是 顺序 的 、 并 且 与 访问 的 第 1 位 处 于 阵列 中 的 同一 行 时 ， 这 种 方式 
非常 有 用 。 此 外 ，SDRAM 的 多 存储 体内 部 结构 改进 了 片 内 的 并 行 性 。 


表 5-4 SDRAM 芯片 引 脚 分 配 


























AO 到 A13 地 址 输入 AO 到 A13 地 址 输入 
CLK 时 钟 输入 CAS | ““ 列 地 址 选 通 
CKE 时 钟 允 许 WE 写 允 许 

cs | BRAR DQO 到 DQ7 数据 输入 /输出 
RAS 行 地 址 选 通 CEB 





模式 寄存 器 和 相关 的 控制 逻辑 是 SDRAM 不 同 于 传统 的 DRAM 的 另 一 个 关键 特点 ， 它 提供 了 
定制 的 SDRAM 以 满足 特定 系统 需求 的 机 制 。 模 式 寄存 器 指定 了 爆发 存 取 长 度 ， 该 长 度 是 同步 地 
向 总 线 发 送 数据 的 单元 个 数 。 该 寄存 器 也 允许 程序 员 调 整 从 接受 读 请 求 到 开始 数据 传输 的 延迟 
时 间 。 

SDRAM 在 连续 传输 大 数据 块 时 性 能 最 佳 ， 例 如 字 处 理 、 电 子 表格 和 多 媒体 等 应 用 。 

图 5-13 给 出 SDRAM 操作 的 例子 。 此 情况 下 爆发 存 取 长 度 是 4， 延 迟 是 2。 在 时 钟 上 升 沿 ， 
通过 使 CS 和 CAS 为 低 电 平 而 同时 保持 RAS 和 WE 为 高 电 平 来 启动 爆发 读 命令 。 地 址 输入 确定 爆发 
存 取 的 起 始 行 地 址 ， 模 式 寄 存 器 设置 爆发 的 类 型 (顺序 的 或 交错 的 ) 和 爆发 存 取 长 度 (1，2， 
4，8， 全 页 ) 。 从 命令 开始 到 第 1 个 位 元 的 数据 出 现在 输出 线 上 的 延 时 等 于 模式 寄存 器 中 设置 的 
CAS 延 迟 值 。 








注 : NOP- 空 操作 
图 5-13 SDRAM 读 操作 时 序 (爆发 存 取 长 度 =4，CAS 延 时 =2) 


现在 又 出 现 了 一 种 SDRAM 的 增强 型 版 本 ， 称 为 双 倍 数据 速率 的 SDRAM (double data rate 
SDRAM，DDR-SDRAM) ， 它 突破 了 每 周期 一 次 的 限制 。DDR-SDRAM 能 每 周期 向 处 理 器 传送 两 次 
数据 。 


5.3.2 Rambus DRAM 


由 Rambus [ FARM92, CRIS97] 开发 的 RDRAM 为 Intel 的 Pentium 和 Itamium 处 理 器 所 采用 ， 
ERMA SDRAM 的 最 大 竞争 对 手 。RDRAM 芯片 是 垂直 封装 的 ， 所 有 的 引 脚 都 在 一 侧 。 芯 片 通 
过 28 根 不 超过 12cm 长 的 线 与 处 理 器 交换 数据 。 总 线 最 多 能 寻 址 320 块 RDRAM 芯片 ， 传 输 率 可 
达 1.6GB/s, 

这 种 特殊 的 RDRAM 总 线 使 用 异步 的 面向 块 的 协议 来 传送 地 址 信息 和 控制 信息 。 经 过 480ns 
初始 访问 时 间 后 ， 就 产生 1.6GB/s 的 数据 速率 。 使 这 一 速率 能 够 实现 的 是 总 线 本 身 ， 它 非常 精确 
地 定义 了 阻抗 、 时 序 和 信号 。 不 像 传统 的 DRAM 采用 显 式 的 RAS, CAS, R/W 和 CE 信和 号 来 控 


第 5 章 内 部 存储 器 . 113 


制 ，RDRAM 通过 高 速 总 线 获得 存储 器 请 求 ， 这 一 请 求 包括 了 操作 时 所 需 的 地 址 、 操 作 类 型 和 字 
节 数 。 
图 5-14 说 明了 RDRAM 的 配置 情况 ， 该 配置 包含 一 个 控制 器 和 几 个 经 由 公共 总 线 连接 在 一 
起 的 RDRAM 模块 。 配 置 的 一 端 是 控制 器 ， 总 线 的 远 端 是 这 些 总 线 的 一 个 并 行 终 接 器 。 总 线 包 括 
18 根 数据 线 (16 根 是 实际 数据 ，2 根 是 奇偶 校 验 ) ， 周 期 率 是 时 钟 速率 的 两 倍 ， 即 时 钟 信 号 的 
前 、 后 沿 各 送出 1 位 ， 这 导致 了 每 个 数据 线 上 的 信和 号 速率 是 800Mb/s。 另 有 一 组 分 离 的 8 根 线 
(RC) 用 于 地 址 和 控制 信号 。 还 有 一 个 时 钟 信 号 ， 它 由 控制 器 的 远 端 出 发 ， 传 播 到 控制 器 之 后 再 
返回 到 远 端 ， 形 成 一 个 环 路 。RDRAM 模块 与 主 控 器 时 钟 同步 传送 数据 到 控制 器 ; 而 控制 器 以 此 
时 钟 的 反方 向 同步 传送 数据 到 一 个 RDRAM 模块 。 总 线 的 其 余 线 包 括 参考 电压 、 地 和 电源 。 

















Vref (参考 电压 ) 
地 (32/18) 
Vd(4) 














图 5-14 RDRAM 结构 
5.3.3 DDR DRAM 


SDRAM 受 限于 它 每 个 总 线 时 钟 周期 仅 能 发 送 一 次 数据 到 处 理 器 。 一 种 SDRAM 的 新 版 本 ， 
称 为 双 速 率 SDRAM， 能 每 时 钟 周期 发 送 两 次 数据 ,一 次 在 时 钟 脉冲 的 上 升 沿 ,一 次 在 下 
降 沿 。 

DDR DRAM 是 由 JEDEC (电子 设备 工程 联合 委员 会 ) 固态 技术 协会 开发 的 ，JEDEC 固态 技 
术 协 会 是 电子 工业 联盟 的 半导体 工程 标准 协会 。 许 多 公司 都 在 制造 DDR 芯片 ， 它 们 被 广泛 地 用 
于 桌面 计算 机 和 服务 器 。 

图 5-15 显示 了 DDR 的 一 个 基本 读 时 序 。 数 据 传输 与 时 钟 的 上 升 沿 和 下 降 沿 同步 ， 它 还 和 双 
向 数据 选 通信 号 (DQS) 同步 。 双 向 数据 选 通信 号 在 读 操 作 期 间 由 存储 控制 器 提供 ， 而 在 写 操作 
期 间 由 DRAM 提供 。 在 典型 的 实现 中 ，DQS 在 读 取 数据 时 被 忽略 。 关 于 DQS 在 写 入 数据 时 的 使 
用 说 明 超 出 了 我 们 所 要 讨论 的 范围 ， 想 详细 了 解 可 参见 [JACO08 ] 。 

DDR 技术 已 经 经 历 了 两 代 改进 。DDR2 通过 提高 RAM 芯片 的 操作 频率 和 将 每 片 芯 片 的 预 取 
缓冲 器 由 2 位 增加 到 4 位 ， 从 而 提高 了 数据 传输 率 。 预 取 缓 冲 器 是 一 个 置 于 RAM 芯片 上 的 存储 
ar cache。 该 缓冲 器 使 RAM 心 片 能 够 尽 可 能 快 地 将 前 置 位 放 人 数据 中 。DDR3 于 2007 年 推出 ， 它 
将 预 取 缓冲 器 容量 增 大 到 8 位 。 

理论 上 ，DDR 模块 能 以 200 ~600MHz 的 时 钟 速率 传送 数据 ，DDR2 可 以 在 400 ~ 1066MHz 的 
时 钟 速率 内 传输 数据 ， 而 DDR3 的 传输 速率 在 800 ~ 1600MHz 之 间 。 当 然 ， 实 际 能 达到 的 速率 都 
要 低 一 些 。 

附录 K 提供 了 关于 DDR 技术 的 更 加 详细 的 讨论 。 
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RAS = 行 地 址 选择 

CAS = 列 地 址 选择 

DQ = 数据 (输入 或 输出 ) 
DQS = DQ 选择 


图 5-15 DDR SDRAM 读 操作 时 序 


5.3.4 cache DRAM 


HH = 3828 A] FF AY cache DRAM (CDRAM) [HIDA90、ZHAN01]， 在 常规 的 DRAM 芯片 内 集 
成 了 一 个 小 的 SRAM cache (16Kb)。 

CDRAM 上 的 SRAM 能 以 两 种 方式 使 用 。 首 先 ， 它 能 作为 真正 的 cache 使 用 ， 每 行 由 64 位 组 
Wo CDRAM 的 cache 模式 对 普通 的 存储 器 随机 存 取 非常 有 效 。 

其 次 ，CDRAM 上 的 SRAM 也 可 用 做 支持 串 行 存 取 数据 块 的 缓冲 器 。 例 如 ， 为 刷新 位 映射 屏 
幕 ，CDRAM 能 从 DRAM 预 取 数据 到 SRAM 缓冲 器 中 ， 随 后 对 芯片 的 存 取 只 对 SRAM 进行 。 


5.4 推荐 的 读物 和 Web 站 点 


[PRIN91] 提供 了 对 包括 SRAM, DRAM 和 快 闪 存储 器 在 内 的 半导体 存储 器 技术 的 综合 论述 。 
[SHAR97] 介绍 了 同样 的 内 容 ， 并 强调 了 测试 和 可 靠 性 问题 。 [SHAR03] 和 [PRIN02] 专注 于 高 级 的 
DRAM 和 SRAM 体系 结构 。 深 入 考察 DRAM， 见 [JACO08] 和 [KETT01]。[CUPP01] 提供 了 各 种 DRAM 
方案 的 性 能 比较 ,很 有 意义 。[ BEZ03] 全 面 介绍 了 快 闪存 储 器 技术 。 

[ MCEL85 ] 中 有 纠 错 码 的 很 好 阐述 。 若 需要 更 深入 的 研究 ，[ ADAM91] 和 [BLAH83] 两 书 值得 阅读 。 
[ASH90] 对 纠 错 码 进行 了 理论 和 数学 的 分 析 ， 值 得 一 读 。[ SHAR97] 包含 有 对 当代 主 存储 器 中 所 用 代码 的 
全 面 综 述 。 


ADAM91 Adamek, J. Foundations of Coding. New York: Wiley, 1991. 
ASH90 Ash, R. Information Theory. New York: Dover, 1990. 
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推荐 的 Web 站 点 





e The RAM Guide: 对 RAM 技术 进行 了 全 面 论述 ， 并 提供 了 几 个 有 用 的 链接 。 
。 RDRAM: 提供 RDRAM 信息 的 另 一 个 有 用 的 站 点 。 


5.5 ”关键 词 、 思 考题 和 习题 


关键 词 
cache DRAM (CDRAM): 带 高 速 绥 存 的 DRAM RamBus DRAM (RDRAM); 总 线 式 DRAM 
dynamic RAM (DRAM); 动态 RAM read-mostly memory; 主要 进行 读 操作 的 存储 器 ， 主 读 
electrically erasable programmable ROM ( EEPROM): 存储 器 

电 可 擦 除 / 可 编程 ROM read-only memory (ROM): 只 读 存储 器 
erasable programmable ROM (EPROM): 可 擦 除 / 可 编 ”semiconductor memory: 半导体 存储 器 

程 ROM single-error-correcting (SEC) code; 单 纠 错 码 
error-correcting code (ECC); 纠 错 码 single-error-correcting, double-error-detecting ( SEC-DED ) 
error correction: 错误 纠正 code; 单 纠 错 双 检 错 码 
flash memory: 快 闪 存储 器 soft error: 软 差 错 
Hamming code: 汉 明 码 static RAM (SRAM): 静态 RAM 
hard failure; 硬 故 障 synchronous DRAM (SDRAM): 同步 DRAM 
nonvolatile memory: 非 易 失 性 存储 器 syndrome; 故障 ， 综 合 故障 
programmable ROM (PROM): 可 编程 ROM volatile memory: 易 失 性 存储 器 
思考 题 


5.1 半导体 存储 器 的 主要 性 质 是 什么 ? 

5.2 术语 “随机 存 取 存储 器 ”在 使 用 上 有 哪 两 种 含义 ? 

5.3 DRAM 和 SRAM 在 应 用 上 有 何不 同 ? 

5.4 ”在 速度 、 容 量 、 成 本 等 特性 方面 ， DRAM 和 SRAM 有 何 区 别 ? 

5.5 说 明 为 什么 一 种 类 型 的 RAM 被 认为 是 模拟 设备 ， 而 另 一 种 类 型 的 RAM 被 认为 是 数字 设备 。 
5.6 试 给 出 ROM 的 某 些 应 用 。 

5.7 EPROM, EEPROM 和 快 闪 存储 器 三 者 之 间 有 何不 同 ? 

5.8 解释 图 5$-4b 中 每 个 引 脚 的 功能 。 

5.9 ”什么 是 奇偶 校 验 位 ? 

5.10 ”如 何 解 释 汉 明码 的 故障 字 ? 
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习题 
5.1 
5.2 


5.3 


5.4 


5.5 


5.6 


$7 


5.8 


SDRAM 如 何不 同 于 普通 的 DRAM? 


传统 的 RAM 被 组 织 成 每 芯片 只 有 一 位 ， 而 ROM 通常 被 组 织 成 每 芯片 多 位 ， 请 说 明 原 因 。 

考虑 动态 RAM 每 毫秒 必须 刷新 64 次 ， 每 次 刷新 操作 需要 150ns， 而 一 个 存储 周期 需要 250ns。 试 问 : 

必须 将 存储 器 总 操作 时 间 的 百 分 之 几 用 于 刷新 ? 

图 5-16 给 出 了 一 个 DRAM 经 由 总 线 进行 读 操作 的 简化 时 序 。 存 取 时 间 被 认为 是 由 4 到 t。， 然 后 是 再 充 

EHTA, JA t 延续 到 与 ， 在 此 期 间 DRAM 芯片 必须 再 充电 ， 然 后 处 理 器 才能 再 次 访问 它们 。 

(a) 假定 存 取 时 间 是 60ns， 再 充电 时 间 是 40ns。 试 问 : 存储 周期 时 间 是 多 少 ? 假定 1 位 输出 ， 这 个 
DRAM 所 支持 的 最 大 数据 传输 率 是 多 少 ? 

(b) 使 用 这 些 芯片 构成 一 个 32 位 宽 的 存储 系统 ， 其 产生 的 数据 传输 率 是 多 少 ? 
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图 5-16 简化 的 DRAM 读 时 序 


图 5-6 指出 如 何 利 用 4 个 256KB 的 芯片 组 来 构成 一 个 能 存储 1MB 的 芯片 模块 。 假 定 该 芯片 模块 已 包 庄 
成 为 一 个 独立 的 1MB 芯片 ， 其 字 长 是 1 个 字 节 。 请 画 出 使 用 8 个 1MB 的 芯片 来 构成 一 个 8MB 存储 器 
的 连接 图 。 请 确定 在 你 的 图 中 画 有 地 址 线 ， 并 说 明 它们 的 用 途 ? oo 
在 一 个 经 系统 总 线 连接 DRAM 存储 器 的 典型 Intel 8086 系统 上 ， 由 地 址 允许 信和 号 的 下 降 沿 启动 RAS 有 
效 ， 从 而 开始 DRAM 芯片 的 读 操作 〈 见 图 3-19) 。 然 而 ， 由 于 线路 传播 延迟 和 其 他 延迟 ， 使 地 址 允许 
信号 变 低 后 再 经 历 50ns 才 使 RAS 有 效 。 假 定 RAS 开 始 有 效 出 现在 Ti 状态 的 后 一 半 的 中 间 ( 比 图 3-19 中 
所 示 的 快 一 点 ) ， 在 T 的 终端 处 理 器 读 人 和 人 数据。 然而， 为 了 使 数据 适时 提交 给 处 理 器 ， 存 储 器 必须 先 
于 60ns 提供 数据 。 这 个 时 间 间 隔 考虑 到 沿 数据 路 径 (由 存储 器 到 处 理 器 ) 的 传播 延迟 和 处 理 器 数据 保 
持 时 间 的 要 求 。 假 定时 钟 速率 是 10MHz。 

(a) 如 果 没 有 插入 等 待 状态 ， 则 DRAM 应 多 快 〈 存 取 时 间 )? 

(b) 如 果 DRAM 的 存 取 时 间 是 150ns， 则 每 次 存储 器 的 读 操作 应 插入 多 少 个 等 待 状态 ? 

一 个 特定 的 微 计算 机 的 存储 器 由 64K x 1 的 DRAM 芯片 构成 。 依 据 数据 资料 可 知 ，DRAM 芯片 的 位 元 
阵列 组 织 成 256 行 ， 每 行 每 4ms 必须 至 少 刷 新 一 次 。 假 定 系统 严格 按照 此 要 求 周 期 性 地 刷新 该 存储 器 。 
(a) 连续 刷新 请 求 之 间 的 时 间 周 期 是 多 少 ? 

(b) 所 需 的 刷新 地 址 计数 器 是 多 少 位 ? 

图 5-17 显示 了 一 种 早期 的 SRAM， 它 是 一 个 16 x4 的 Signetics 7489 芯片 。 

(a) 列 出 图 5-17e 中 给 出 的 每 个 CS 输入 脉冲 下 的 芯片 操作 模式 。 

(b) 列 出 在 脉冲 n 后 ， 字 位 置 0 到 6 的 存储 器 内 容 。 

(c) 对 输入 脉冲 h ~m， 数 据 输出 线 的 状态 是 什么 ? 

使 用 容量 为 64 x1 位 的 SRAM 芯片 设计 一 个 总 容量 为 8192 位 的 16 位 存储 器 。 要 求 给 出 芯片 在 存储 器 
板 上 的 阵列 配置 ， 画 出 为 存储 器 分 配 最 低地 址 空间 所 要 求 的 输入 和 输出 信号 ， 并 且 该 设计 应 既 能 满足 
以 字 节 存 取 ， 又 能 满足 以 16 位 字 存 取 。 


5.9 


5.10 
5:11 


5.12 


5.13 
5.14 
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输入 输出 
A3 操作 模式 | 
ran CS R/W Dn On 
CS | 
y tas Lb & iL L 
R/W Signetics 写 
7489 L L H H 
读 L H X 数据 
03 上 一 
EEE Hb L H 
D2 a ja L G A 
02 存储 - 禁 上 输出 | H H x|)  H | 
GND H- ee 
L= 低 电 平 
X= 不 用 关心 
a) 引 脚 安排 b) 真 值 表 





c) 脉冲 时 序 
图 5-17 Signetics 7489 SRAM 


测量 电子 元 件 故 障 率 的 常用 单位 是 非特 (Failure unIT，FIT) ， 表 示 每 十 亿 (10°) 设备 小 时 的 故障 率 。 
另 一 个 著名 但 不 太 常 用 的 测量 单位 是 平均 故障 间隔 时 间 ( mean time between failures，MTBF) ， 它 是 一 
特定 元 件 正 常 (无 故障 ) 运行 的 平均 时 间 。 考 虑 在 一 个 16 位 微 处 理 器 中 使 用 256K x1 的 DRAM 芯片 
所 构成 的 一 个 1MB 存储 器 ， 假 定 每 个 DRAM 芯片 是 2000FIT， 请 计算 此 存储 器 的 MTBF, 

对 于 图 5-10 所 示 的 汉 明 码 ， 试 说 明 当 一 个 校 验 位 而 不 是 一 个 数据 位 出 错时 ， 会 发 生 什 么 ? 

假设 存放 在 存储 器 中 的 一 个 8 位 数据 字 是 11000010 ， 请 使 用 汉 明 算法 确定 需要 哪些 校 验 位 与 此 数据 字 
一 起 存放 在 存储 器 中 ， 并 说 明 解 题 步 又。 

一 个 8 位 字 00111001 ， 与 它 一 起 存储 的 校 验 位 应 该 是 0111。 假 定 从 存储 器 读 出 时 ， 计 算出 的 校 验 位 
是 1101， 那 么 由 存储 器 读 出 的 数据 字 是 什么 ? 

若 使 用 汉 明 纠 错 码 来 确定 1024 位 数据 字 中 的 单个 错误 ， 则 需要 多 少校 验 位 ? 

试 设计 一 个 16 位 数据 字 的 SEC 码 。 假 定数 据 字 为 0101000000111001， 说 明 SEC 码 如 何 正 确 识别 数据 
位 5 的 错误 。 


第 6 章 | 


Computer Organization and Architecture; Designing for Performance, 8E 


Sb B TF Mi air 


本 章 要 点 


© 磁盘 至 今 仍 是 最 重要 的 外 部 存储 器 。 从 个 人 计算 机 到 大 型 机 ， 用 至 超级 计算 机 ， 都 广泛 
使 用 活动 式 磁盘 和 固定 式 磁盘 (FH). 

e 为 了 实现 更 高 的 性 能 和 更 好 的 可 用 性 ， 服 务 器 以 及 更 大 系统 使 用 RAID BHA. RAID 
使 用 了 多 个 磁盘 作为 数据 存储 设备 的 并 行 阵 列 的 一 系列 技术 ， 并 具有 内 在 元 余 性 来 弥补 
磁盘 故障 。 

o 在 各 种 类 型 的 计算 机 系统 中 ， 光 存储 技术 变 得 日 益 重要 。CD-ROM 技术 已 广泛 使 用 多 年 ， 
而 像 可 写 式 CD 和 DVD 这 类 更 加 新 近 的 技术 也 正在 兴起 。 

本 章 考察 外 部 存储 器 的 设备 和 系统 。 首 先 从 最 重要 的 磁盘 设备 开始 ,磁盘 几乎 是 所 有 计算 

机 系统 外 部 存储 器 的 基础 ; 然后 介绍 使 用 磁盘 阵列 以 获得 更 好 的 性 能 ， 特 别 考察 被 称 为 RAID 
(redundant array of independent disks) 的 磁盘 元 余 阵 列 技术 ; 接着 介绍 对 许多 计算 机 系统 来 说 日 
益 重 要 的 部 件 一 一 外 部 光 存 储 器 ; 最 后 讨论 磁带 存储 器 。 


6.1 磁盘 


磁盘 是 一 种 由 非 磁性 材料 制 成 称 为 衬 底 的 圆 盘 ， 其 上 涂 有 一 层 磁性 材料 。 传 统 上 ， 衬 底 一 直 
使 用 铝 或 铝 合金 材料 ， 而 最 近 ， 已 推出 玻璃 衬 底 。 玻 璃 衬 底 具 有 很 多 优点 ， 主 要 包含 如 下 几 点 : 
。 改善 了 磁 层 表面 的 均匀 性 ， 从 而 增强 了 磁盘 的 可 靠 性 。 
显著 地 减少 了 整个 表面 的 缺陷 ， 从 而 有 助 于 读 - 写 错误 的 减少 。 
能 支持 更 低 的 磁头 飞行 高 度 (后 面 将 介绍 ) o 
更 好 的 刚度 ， 从 而 降低 了 磁盘 动力 需求 。 
更 好 的 耐 冲击 和 耐 磨损 能 力 。 


6.1.1 磁 读 写 机 制 


数据 的 记录 和 其 后 的 读 出 都 是 通过 一 个 叫做 磁头 (head) 的 导电 线圈 进行 的 。 多 数 系统 使 
用 两 个 磁头 : 一 个 读 磁头 ， 一 个 写 磁 头 。 在 读 或 写 操作 期 间 ， 磁 头 静止 不 动 ， 而 盘 片 在 非常 靠近 
磁头 的 下 方 高 速 旋转 。 

写 机 制 使 用 了 电流 通过 线圈 时 产生 磁场 这 个 效应 。 脉 冲 电流 送 入 写 磁头 ， 形 成 的 磁化 模式 
被 记录 在 其 下 的 磁盘 表面 上 ， 正 、 负 电流 分 别 产 生 不 同 的 磁化 模式 。 写 磁头 本 身 是 一 个 由 易 磁 化 
的 材料 所 组 成 的 矩形 环 ， 其 一 侧 开 有 缝 除 ， 而 相对 的 一 侧线 有 数 圈 导线 (如 图 6-1 所 示 ) 。 线 圈 
中 的 电流 在 缝隙 间 感 应 出 一 个 磁场 ， 此 磁场 在 记录 介质 上 磁化 出 一 个 小 域 ; 改变 电流 的 方向 ， 磁 
域 的 磁化 方向 也 随 之 改变 。 

传统 的 读 机 制 利用 了 磁盘 相对 线圈 运动 时 在 线圈 中 产生 电流 这 个 效应 。 当 磁盘 表面 在 磁头 
下 通过 时 ， 产 生 一 个 与 数据 记录 电流 极 性 相同 的 电流 。 这 种 方式 的 读 磁 头 结构 本 质 上 与 写 磁头 
结构 相同 ， 因 此 ， 同 一 磁头 既 可 用 于 读 也 可 用 于 写 。 这 种 单 磁头 结构 主要 用 于 软盘 系统 和 老式 硬 
盘 系统 。 

当代 硬盘 系统 采用 一 种 不 同 的 读 机 制 ， 它 要 求 使 用 一 个 单独 的 读 磁 头 ， 通 常 紧 靠 写 磁 头 安 
装 。 读 磁头 由 一 个 部 分 被 屏蔽 的 磁 阻 (magnetoresistive，MR) 传感器 组 成 。MR 材料 的 电阻 大 小 








第 6 章 外 部 存储 器 . 119 


取决 于 在 它 下 面 运动 的 介质 的 磁化 方向 。 让 电流 通过 MR 传感器 ， 电 阻 的 变化 作为 电压 信号 被 检 
测 出 来 。MR 设计 人 允许 更 高 频率 的 操作 ， 这 等 同 于 更 高 的 存储 密度 和 更 快 的 操作 速度 。 


读 电流 





图 6-1 感应 式 写 / 磁 阻 式 读 的 磁头 


6.1.2 ”数据 组 织 和 格式 化 


磁头 是 一 种 相对 较 小 的 装置 ， 它 能 从 处 于 其 下 方 的 、 正 在 旋转 的 盘 片 上 读 取 数据 或 向 盘 片 
写 人 数据 。 由 此 ， 盘 上 的 数据 组 织 呈 现 为 一 组 同心 圆 环 ， 圆 环 被 称 为 磁道 (track) 。 每 个 磁道 与 
磁头 同 宽 。 每 个 盘面 上 有 数 千 个 磁道 。 

图 6-2 描述 了 磁盘 的 数据 分 布 。 相 邻 磁 MK 磁道 
道 之 间 有 间隙 (gap) ， 它 可 以 防止 或 至 少 可 yrun 
以 减少 由 于 磁头 未 对 准 或 磁 域 干扰 所 引起 的 
错误 。 

数据 以 扇 区 (sector) 为 单位 传人 或 传 
出 磁盘 (如 图 6-2 所 示 ) 。 每 个 磁道 通常 有 
数 百 个 局 区 ， 其 长 度 可 固定 也 可 变化 。 当 
前 ， 大 多 数 系 统 使 用 固定 长 度 的 而 区 ，512 
字 节 几乎 是 通用 的 扇 区 大 小 。 为 避免 对 系统 
提出 不 合理 的 定位 精度 要 求 ， 相 邻 扇 区 也 留 
有 间隙 。 

靠近 旋转 盘 中 心 的 位 经 过 一 固定 点 (如 
读 - 写 磁头 ) 的 传输 要 比 盘 外 沿 的 位 慢 。 因 
此 ， 必 须 寻 找 一 种 方式 来 补偿 速率 的 变动 ， 
使 磁头 能 以 同样 的 速度 读 取 所 有 的 位 。 这 可 
以 通过 增 大 记录 在 盘 片 区 域 上 的 信息 位 之 间 Mea Rea 
的 间隔 来 实现 。 于 是 ， 以 固定 速度 旋转 的 磁盘 能 够 以 相同 的 速率 来 扫描 所 有 的 信息 ， 该 速度 称 为 
恒定 角速度 (constant angular velocity, CAV), Kl 6-3a 显示 了 使 用 CAV 的 磁盘 布局 ， 盘 面 被 划分 
成 一 串 同心 圆 磁道 和 多 个 饼 形 扇 区 。 使 用 CAV 的 好 处 是 ， 能 以 磁道 号 和 局 区 号 来 直接 寻 址 各 个 
数据 块 。 为 了 将 磁头 从 当前 位 置 移动 到 指定 位 置 ， 只 需 将 磁头 径 向 移动 到 指定 磁道 ， 然 后 等 待 指 
定 恒 区 转 到 磁头 下 ， 整 个 耗 时 很 少 。CAYV 的 缺点 是 ， 外 围 的 长 磁道 上 存储 数据 需 与 内 圈 的 短 磁 







磁道 间隙 
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道上 所 存储 数据 一 样 多 。 





b) 多 带 式 记录 
图 6-3 ”盘面 布局 方法 比较 


因为 线性 密度 (density) ， 即 每 英寸 的 位 数 ， 由 外 图 磁道 到 内 图 磁 道 是 逐渐 增 大 的 ， 所 以 在 
直截了当 的 CAV 系统 中 ， 存 储 容量 受到 了 内 圈 所 能 实现 的 最 大 记录 密度 的 限制 。 为 了 提高 密度 ， 
当今 的 硬盘 系统 使 用 了 一 种 称 之 为 多 重 区 域 记 录 (multiple zone recording) 的 技术 ， 它 将 盘面 划 
分 成 多 个 区 域 (典型 的 是 16 区 ) 。 在 一 个 区 域 中 ， 各 磁道 的 位 数 是 恒定 的 ， 远 离 中 心 的 区 域 要 
比 靠 近 中 心 的 区 域 容纳 更 多 的 位 〈 更 多 的 扇 区 ) ， 这 就 允许 以 稍微 复杂 一 些 的 电路 为 代价 全 面 提 
升 磁盘 存储 容量 。 当 磁头 由 一 个 区 域 移动 到 另 一 个 区 域 时 ( 沿 磁 道 ) ， 位 长 度 的 改变 引起 读 写 时 
序 做 相应 变动 。 图 6-3b 给 出 了 多 重 区 域 记 录 的 磁盘 布局 ， 在 此 ， 每 个 区 域 只 是 一 个 简单 的 磁 
道 宽 。 

需要 某 种 方式 来 确定 一 个 磁道 内 的 扁 区 人 位置。 显然， 磁道 必须 有 一 些 起 始点 和 辨识 每 个 肩 
区 的 起 点 及 终点 的 方法 。 这 些 需求 由 记录 在 磁盘 上 的 控制 数据 来 处 理 。 因 此 ， 磁 盘 格 式 化 时 ， 会 
附 有 一 些 仅 被 磁盘 驱动 器 使 用 而 不 被 用 户 存 取 的 额外 数据 。 

磁盘 格式 化 的 一 个 例子 如 图 6-4 所 示 。 在 此 例 中 ， 每 个 磁道 包含 30 个 固定 长 度 的 扇 区 ， 每 
AA 600 字 节 ， 其 中 包含 512 字 节 的 数据 和 磁盘 控制 器 使 用 的 控制 信息 。ID 域 是 唯一 的 一 
个 标识 或 地 址 ， 用 于 定位 具体 的 扇 区 。 同 步 字 节 是 一 个 特殊 的 位 模式 ， 用 来 定义 区 域 的 起 始点 。 
磁道 号 标识 磁盘 表面 上 的 一 个 磁道 。 磁 头号 标识 一 个 磁头 ， 因 为 磁盘 有 多 个 面 (不 久 将 解释 ) 。 
ID 和 数据 域 各 包含 一 个 检 错 码 。 


索引 EE 
AK | | 物理 扇 区 0 | | 物理 扇 区 | | | | | 物理 肩 区 29 | | 





图 6-4 温 彻 斯 特 磁盘 磁道 格式 (Seagate ST506) 


第 6 章 ”外 部 存储 器 : 121 


6.1.3 物理 特性 


# 6-1 列 出 了 区 分 各 类 磁盘 的 主要 特性 。 首 先 ， 磁 头 在 磁盘 的 径 向 上 既 可 以 是 固定 的 也 可 以 
是 移动 的 。 在 固定 头 磁盘 (fixed-head disk) 中 ， 每 个 磁道 有 一 个 读 - 写 头 ， 所 有 磁头 安装 在 跨越 
所 有 磁道 的 固定 支架 上 ， 这 种 系统 目前 已 很 少 。 而 在 可 移动 头 磁 盘 (movable-head disk) 中 ， 只 
有 一 个 读 - 写 头 ， 与 前 者 相似 ， 磁 头 固定 在 支架 上 ， 但 支架 能 伸缩 ， 以 使 磁头 能 定位 到 任何 磁 
道上 。 


表 6-1 磁盘 系统 的 物理 特性 











磁头 运动 
固定 磁头 (每 磁道 一 个 ) 
可 移动 磁头 (每 面 一 个 ) 


磁盘 可 更 换 性 


不 可 更 换 磁 盘 
可 更 换 磁 盘 


磁头 机 制 


接触 《软盘 ) 
固定 间隙 
空气 动 压 气 隙 ( 温 氏 磁盘 ) 













磁盘 本 身 安装 在 磁盘 驱动 器 内 ， 而 驱动 器 由 支架 、 带 动 盘 片 旋转 的 主轴 和 二 进 制 数据 输入 / 
输出 所 需要 的 电路 组 成 。 不 可 更 换 磁 盘 (nonremovable disk) 永久 安装 在 磁盘 驱动 器 内 ， 个 人 计 
算 机 上 的 硬盘 就 是 这 种 类 型 ， 而 可 更 换 磁盘 (removable disk) 可 从 磁盘 驱动 器 内 取出 ， 并 且 用 
另 一 张 盘 蔡 换 。 可 更 换 磁 盘 的 优点 是 ， 在 容量 有 限 的 磁盘 系统 中 ， 可 以 得 到 无 限量 的 数据 ; 而 
且 ， 磁 盘 可 以 从 一 台 计 算 机 系统 移动 到 另 一 台 计算 机 系统 。 软 盘 和 ZIP 盒 式 磁盘 是 可 更 换 磁盘 的 
例子 。 

大 多 数 磁盘 是 两 面 都 有 可 磁化 的 涂 层 ， 这 被 称 为 双 面 (double-sided) 磁盘 ; 而 一 些 低 价位 
的 磁盘 系统 使 用 单 面 (single-sided) 磁盘 。 

某 些 磁盘 驱动 器 内 垂直 安装 多 个 盘 片 (multiple platter), ， 盘 间 相 隔 约 1 英寸 ,同时 安装 多 个 
支架 (如 图 6-5 所 示 ) 。 多 盘 片 磁盘 使 用 可 移动 磁头 ， 每 面 有 一 个 读 - 写 磁头 ， 所 有 这 些 磁头 被 机 
械 地 固定 ， 以 便 与 盘 片 中 心 等 距离 并 一 起 移动 。 于 是 ， 任 何 时 刻 ， 所 有 磁头 都 位 于 与 盘 片 中 心 等 
距离 的 各 面 磁道 上 ， 所 有 盘 片 上 相同 的 相对 位 置 的 一 组 磁道 被 称 为 一 个 柱 面 (cylinder) 。 例 如 ， 
图 6-6 中 所 有 画 有 阴影 的 各 磁道 属于 同一 柱 面 。 


读 写 头 (每 面 1 从 RRA 


Ay: 





图 6-5 磁盘 驱动 器 部 件 图 66 磁道 和 柱 面 
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依据 磁头 机 制 可 以 把 磁盘 分 成 三 大 类 。 传 统 上 ， 读 - 写 头 放置 在 盘 片上 方 的 固定 距离 ， 人 允许 
有 一 个 气 阶 。 男 一 个 极端 的 情况 是 ， 读 - 写 头 在 读 或 写 操作 时 实际 地 物理 接触 磁 表 面 ， 这 种 机 制 
用 于 软盘 (floppy disk) ， 其 容量 小 、 使 用 灵活 和 价格 便宜 。 

要 理解 第 三 类 磁盘 类 型 ， 需 要 讨论 数据 密度 和 气 隙 大 小 的 关系 。 磁 头 只 有 能 产生 或 感应 有 
足够 强度 的 电磁 场 才能 恰当 地 进行 写 和 读 操作 。 磁 头 越 窗 ， 离 盘面 越 近 才能 起 作用 。 较 罕 的 磁头 
意味 着 较 罕 的 磁道 ， 因 而 有 较 大 的 数据 密度 ， 这 是 我 们 所 需要 的 。 然 而 ， 由 于 磁盘 介质 不 纯 和 有 
缺陷 等 原因 ， 磁 头 离 盘面 越 近 ， 其 出 错 率 就 越 高 。 为 了 解决 这 一 问题 ， 人 们 开发 了 温 彻 斯 特 
(Winchester， 简 称 温 氏 ) 磁盘 。 温 氏 磁 盘 磁 头 封装 在 几乎 无 污染 的 密封 装置 中 ， 这 种 磁头 与 党 
规 刚 性 磁头 相 比 ， 其 读 写 操作 更 加 贴近 磁盘 表面 ， 因 此 数据 密度 更 大 。 当 磁盘 不 动 时 ， 磁 头 实际 
上 以 气垫 的 形态 轻 停 在 磁盘 表面 。 而 磁盘 旋转 时 ， 由 盘 片 旋转 产生 的 气压 使 气垫 升 高 而 将 磁头 
与 磁盘 分 离 。 结 果 是 这 种 非 接触 系统 可 以 比 常规 刚性 磁头 使 用 更 窗 的 磁头 ， 以 更 贴近 的 距离 来 
读 写 磁盘 表面 数据 ” 。 

表 6-2 给 出 了 典型 的 当代 高 性 能 磁盘 的 磁盘 参数 。 


表 6-2 典型 的 硬盘 驱动 器 参数 



























Seagate Barracuda | Seagate Barracuda Seagate Barracuda 





























































Tt ES.2 7200.10 7200.9 Bilal Mierodriye 
应 用 大 容量 服务 器 高 性 能 桌面 系统 “| 人 门 级 桌面 系统 “| 膝 上 型 电脑 手持 设备 
容量 1TB 120GB 8GB 
最 小 寻 道 时 间 | 0.8ms 
平均 寻 道 时 间 | 8.5ms 12.5ms 12ms 
旋转 速度 7200rpm 7200rpm 5400rpm 3600rpm 
平均 旋转 延 时 | 4.16ms 4.17ms 5.6ms 8.33ms 
最 大 传输 率 3GB/s 300MB/s 150MB/s 10MB/s 
ETL 512 512 512 512 





每 盘面 磁道 数 2 





6.1.4 ”磁盘 性 能 参数 


磁盘 O 操作 的 实际 细节 取决 于 计算 机 系统 、 操 作 系统 、LO 通道 特性 和 磁盘 控制 器 硬件 。 
图 6-7 给 出 了 一 个 常规 的 磁盘 O 传送 时 序 图 。 


等 待 设备 等 待 通道 寻 道 旋转 延迟 数据 传送 
| 141444404HF------------ 上 ------------- — 


设备 忙 








图 6-7 ”磁盘 0 传送 的 时 序 
当 磁 盘 驱动 器 运行 时 ， 磁 盘 以 恒定 的 速度 旋转 。 为 了 读 或 写 操作 ， 磁 头 必 须 精 确定 位 到 想 要 
的 磁道 和 该 磁道 上 想 要 的 肩 区 的 起 始 处 。 磁 道 的 选择 包括 在 可 移动 磁头 系统 中 移动 磁头 或 在 固 
定 磁头 系统 中 选择 某 个 磁头 。 在 可 移动 磁头 系统 中 ， 磁 头 定位 到 该 磁道 所 花 的 时 间 称 为 寻 道 时 
间 (seek time) 。 无 论 哪 一 种 磁头 系统 ， 一 旦 磁道 被 选 定 ， 磁 盘 控 制 器 将 处 于 等 待 状态 ， 直 到 相应 





O 由 于 历史 的 原因 ，Winchester 这 一 术语 在 其 对 外 发 布 之 前 ， 最 早 是 作为 IBM 公司 3340 磁盘 模型 的 代码 名 称 。3340 
磁盘 是 一 种 可 更 换 式 磁盘 ， 其 磁头 都 被 封装 在 驱动 器 内 。 目 前 ， 这 一 术语 用 于 任何 采用 气体 动 压 磁头 设计 的 密封 
昌 上 动 融 。 温 彻 斯 特 磁 盘 普 这 用 于 构建 个 人 计算 机 和 工作 站 ， 只 不 过 这 里 称 之 为 硬盘 ， 
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的 扇 区 旋转 到 磁头 可 以 进行 读 / 写 的 位 置 。 等 待 相 应 鹿 区 的 起 始 处 到 达 磁 头 的 这 段 时 间 称 为 旋转 
延迟 (rotational delay 或 rotational latency) 。 寻 道 时 间 和 旋转 延迟 的 总 和 称 为 存 取 时 间 ( access 
time) ， 即 定位 到 读 或 写 位 置 的 时 间 。 一 旦 磁头 定位 后 ， 鹿 区 旋转 到 磁头 下 方 时 ， 就 可 完成 读 或 
写 操作 ; 这 是 整个 操作 的 数据 传送 部 分 ， 传 送 所 需 的 时 间 称 为 传送 时 间 (transfer time) 。 

除 存 取 时 间 和 传送 时 间 以 外 ， 常 有 几 个 与 磁盘 IO 操作 有 关 的 队列 延迟 。 当 进程 发 出 一 个 
0 请 求 后 ， 它 首先 要 在 一 个 队列 中 等 待 所 需 设 备 变 为 可 用 ， 直 到 此 设备 被 分 配给 该 进程 。 如 果 该 
设备 与 其 他 磁盘 驱动 器 共享 一 个 或 一 组 IO 通道 ， 则 还 可 能 有 一 个 附加 的 等 待 ， 等 待 相关 通道 变 
为 有 效 。 此 时 ， 寻 道 工 作 完成 ， 开 始 磁盘 存 取 。 

在 某 些 高 端的 服务 器 系统 中 ， 使 用 了 一 种 称 为 旋转 定位 监测 (RPS) 的 技术 。 其 工作 过 程 如 
下 : 当 寻 道 命 令 已 发 出 时 ， 释 放 它 所 占据 的 WO 通道 去 处 理 其 他 VO 操作 ; 当 寻 道 操作 完成 时 ， 
设备 确定 所 需 数 据 何 时 将 转 到 磁头 下 ; 当 所 需 扇 区 接近 磁头 时 ,设备 设法 重新 建立 与 主机 通信 
的 路 径 。 如 果 控 制 器 或 通道 正在 忙于 处 理 其 他 VO， 则 重 连接 失败 ， 并 且 设 备 必 须 旋转 一 整 周 
后 ， 才 能 再 次 试图 重 连接 ， 这 称 为 一 次 RPS 失效 。 这 个 额外 的 延迟 单元 必须 加 入 到 图 6-7 的 时 
序 中 。 

1. 寻 道 时 间 

寻 道 时 间 是 指 移 动 磁盘 臂 到 所 要 求 的 磁道 处 所 花费 的 时 间 。 这 是 一 个 难于 精确 定量 的 时 间 ， 
它 由 两 个 主要 部 分 组 成 : 初始 启动 时 间 和 一 旦 访问 臂 加 速 到 指定 速度 后 还 必须 跨越 若干 磁道 所 
用 的 时 间 。 遗 憾 的 是 ， 路 越 时 间 不 是 磁道 数 的 线性 函数 ， 它 还 包括 一 个 校正 时 间 〈( 即 从 磁头 定 
位 到 目标 磁道 至 磁道 标识 被 证 实 的 一 段 时 间 ) 。 

许多 改进 来 自 使 用 更 小 、 更 轻 的 磁盘 元 件 。 几 年 前 ， 典 型 的 磁盘 直径 是 14 英寸 (36 厘米 ) ， 
而 现在 的 普遍 尺寸 是 3.5 英寸 (8.9 厘米 ) ,减少 了 磁盘 臂 必须 跨越 的 距离 。 当 代 硬 盘 的 典型 平均 
寻 道 时 间 小 于 10ms。 

2. 旋转 延迟 

与 软盘 不 同 ， 磁 盘 的 旋转 速率 从 每 分 钟 3600 FE 〈 如 数码 照相 机 这 类 手持 设备 中 ) 到 每 分 钟 
20 000 转 。 对 于 20 000 转 / 分 的 转速 而 言 ， 则 是 每 3ms 转 一 周 ， 因 此 平均 旋转 延迟 是 1.5ms。 

3. 传送 时 间 

硬盘 的 数据 传送 时 间 与 磁盘 旋转 速度 之 间 的 关系 如 下 式 所 示 : 


T=} 


rN 
这 里 : 
T = 传送 时 间 
b= 传送 的 字 节 数 
N= 每 磁道 的 字 节 数 
r= 旋转 速率 ， 单 位 是 转 / 秒 
于 是 ， 总 的 平均 访问 时 间 可 以 表示 为 : 
1 b 
T=T, +3 tN 


AP, T, 是 平均 寻 道 时 间 。 注 意 ， 对 于 多 带 记录 式 磁 盘 ， 因 为 每 磁道 的 字 节 数 是 变化 的 ， 所 以 
计算 会 变 复杂 ? 。 

4. 定时 比较 

根据 上 面 定义 的 参数 ， 让 我 们 来 考察 两 个 不 同 的 Y0 操作 ， 它 们 说 明 过 分 依靠 平均 值 的 危险 。 





O 将 上 述 两 个 公式 与 公式 (4.1) 进行 比较 。 
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考虑 一 个 广告 称 平均 寻 道 时 间 为 4ms 的 磁盘 ， 其 转速 为 15 000rpm， 每 磁道 500 AX, 4 
512B。 假 设 我 们 希望 读 取 一 个 由 2500 个 鹿 区 组 成 的 总 长 为 1.28MB 的 文件 ， 让 我 们 来 估计 总 的 
传送 时 间 。 

首先 ， 假定 该 文件 尽 可 能 紧凑 地 存储 于 磁盘 上 ， 即 该 文件 占据 相 邻 5 个 磁道 的 全 部 扁 区 (5 
道 x500 扇 区 / 道 =2500 扇 区 ) 。 这 也 就 是 所 谓 的 顺序 组 织 (sequential organization ) 。 现 在 ， 可 求 
出 读 取 第 1 个 磁道 所 用 的 时 间 : 


平均 寻 道 4ms 
平均 旋转 延迟 2ms 
读 500 个 扇 区 4ms 
合计 10ms 


假设 其 余 磁 道 基 本 上 不 再 需要 寻 道 时 间 ， 即 VO 操作 能 够 跟 得 上 磁盘 数据 流速 度 ， 则 读 取 后 
续 磁 道 最 多 只 需要 考虑 旋转 延迟 。 于 是 ， 读 每 一 个 后 续 磁 道 的 用 时 为 2 +4 =6ms。 读 整个 文件 
用 时 : 
总 时 间 =10 +4 x6 =34ms =0.034s 
现在 让 我 们 来 重新 计算 随机 存 取 而 不 是 顺序 存 取 方 式 读 取 同 一 数据 所 需要 的 时 间 ， 即 假设 
该 文件 的 各 扇 区 随机 散布 在 磁盘 上 。 对 每 一 扇 区 ， 有 : 





平均 寻 道 4 ms 
旋转 延迟 2 ms 
读 1 个 扇 区 0.008ms 
合计 6.008ms 


于 是 ， 读 整个 文件 的 总 时 间 =2500 x 6.008 =15 020ms =15.02s。 

很 明显 ， 扇 区 的 读 取 次 序 对 VO 性 能 有 巨大 影响 。 当 文件 由 多 个 扇 区 组 成 时 ， 我 们 有 某 种 控 
制 扇 区 分 布 的 方法 。 虽 然 如 此 ， 即 使 是 多 道 程序 下 的 文件 访问 ， 也 会 存在 YO 
请 求 竞争 同一 磁盘 的 问题 。 因 此 ， 考 虑 一 种 改善 磁盘 VO 性 能 的 办 法 ， 使 之 能 
超出 纯 随机 磁盘 存 取 的 性 能 ， 是 很 有 价值 的 。 这 导致 对 磁盘 调度 算法 的 考虑 ， 
这 属于 操作 系统 的 范畴 ， 超 出 了 本 书 的 范围 (详细 讨论 参见 [STAL05 ] ) 。 





RAID 模拟 器 


6.2 RAID 


如 前 所 述 ， 辅 存 性 能 的 改进 速度 比 处理 器 和 主 存 的 性 能 改进 速度 要 慢 得 多 。 这 种 不 匹配 也 
许 会 是 磁盘 存储 系统 成 为 改进 整个 计算 机 系统 性 能 的 焦点 所 在 。 

和 计算 机 的 其 他 性 能 一 样 ， 磁 盘存 储 器 设计 者 认识 到 : 如 果 一 种 元 件 只 能 推进 到 这 个 程度 ， 
那么 通过 并 行使 用 多 个 元 件 会 获得 意外 的 性 能 。 在 磁盘 存储 器 的 研究 上 ， 这 种 思想 导致 了 独立 
操作 和 并 行 处 理 的 磁盘 阵列 的 开发 。 由 于 是 多 盘 ， 因 此 ， 只 要 请 求 的 数据 驻 留 在 分 离 的 盘 上 ， 则 
分 离 的 VO 请 求 可 并 行 处 理 。 更 进一步 ， 如 果 将 要 存 取 的 数据 块 分 布 在 多 个 盘 上 ， 则 单个 WO 请 
求 也 能 够 并 行 处 理 。 

随 着 多 盘 的 使 用 ， 出 现 了 很 多 种 使 用 多 盘 组 织 数据 和 增加 数据 元 余 来 提高 其 可 靠 性 的 方法 。 
但 这 却 很 难 开发 出 可 用 于 多 操作 平台 和 操作 系统 的 数据 库 方案 。 幸 运 的 是 对 多 盘 数 据 库 的 设计 ， 
工业 上 通过 了 一 个 称 为 RAID (独立 磁盘 宛 余 阵列 ) 的 标准 方案 。RAID 方案 分 为 7 级 ”(0 ~6 
级 ) ， 但 这 些 级 别 并 不 是 简单 地 表示 层次 关系 ， 而 是 表示 具有 下 列 3 个 共同 特性 的 不 同 设计 
结构 。 


G 一 些 研究 人 员 和 一 些 公司 还 定义 了 其 他 的 级 ， 但 本 节 描 述 的 这 七 级 是 世界 公认 的 。 
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(1) RAID 是 一 组 物理 磁盘 驱动 器 ， 在 操作 系统 下 被 视 为 一 个 单一 的 逻辑 驱动 句 。 

(2) 数据 以 条 带 化 (striping) 的 方式 分 布 在 一 组 物理 磁盘 上 ， 这 在 后 面 会 讨论 。 

G) 元 余 磁 盘 容 量 用 于 存储 奇偶 校 验 信息 ， 保 证 磁盘 万 一 损坏 时 能 恢复 数据 。 

第 (2) 和 (3) 条 特性 的 详细 内 容 在 不 同 的 RAID 级 中 是 不 同 的 ，RAID 0 和 RAID 1 不 支持 
第 (3) 特性 。 

术语 RAID 最 早出 现在 一 篇 由 加 州 大 学 伯克利 分 校 的 研究 小 组 撰写 的 论文 [PATT88]” 中 ， 
此 论文 概括 了 各 种 RAD 的 配置 和 应 用 ， 并 介绍 了 现在 仍 在 使 用 的 RAID REX, RAD 策略 是 使 
用 多 个 磁盘 驱动 器 ， 它 以 这 样 一 种 方法 来 分 布 数据 ， 以 便 能 同时 从 多 个 磁盘 中 存 取 数 据 ， 因 而 改 
善 了 LO 性 能 ， 并 且 更 方便 增加 磁盘 容量 。 

RAID 方案 的 独特 贡献 是 有 效 解决 了 对 宛 余 的 需求 。 尽 管 允 许多 个 磁头 和 机 械 臂 移动 机 构 同 
时 操作 ， 以 达到 更 高 的 LO 和 传输 速度 ， 但 多 个 设备 的 使 用 增加 了 出 错 概率 。 为 了 对 这 种 可 靠 性 
的 降低 进行 补偿 ，RAID 使 用 存储 的 奇偶 校 验 信息 来 恢复 因 磁 盘 损 坏 而 丢失 的 数据 。 

下 面 我 们 讨论 RAID 中 的 每 一 级 ， 表 6-3 对 这 7 级 进行 了 粗略 的 介绍 。 表 中 显示 了 IO 性 能 
在 数据 传输 能 力 (移动 数据 的 能 力 ) 和 LO 请 求 速 率 (满足 VO 请 求 的 能 力 ) 两 项 。 因 为 相对 
这 两 个 度量 标准 ，RAID 各 级 表现 出 本 质 的 不 同 。RAID 各 级 的 支撑 点 是 用 阴影 突出 的 部 分 。 图 
6-8 表示 一 个 支持 4 个 无 元 余 磁盘 数据 容量 的 7 级 RAID 方案 。 此 图 突出 了 用 户 数据 和 宛 余 数据 
的 分 布 ， 并 指出 不 同 级 相应 的 存储 容量 需求 。 这 张 图 将 贯穿 下 面 讨论 的 整个 过 程 。 
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KA; 4 、 
| “ 比 单 盘 高 很 多 ; 与 | 读 与 RAID0 类似; | P5 RADO 类 似 ; 
校 验 RAID 2、3、5 差不多 | 写 低 于 单 盘 写 显著 低 于 单 盘 
arer |s | IRA 比 单 盘 高 很 多 ; 与 | 读 与 RAID 0 类 似 ; | By RAID 0 类 似 ; 
式 奇偶 校 验 | l | RAID 2、3、4 差不多 | 写 低 于 单 盘 写 显著 低 于 单 盘 





块 交错 分 布 Nx2 读 与 RAID 0 类 似 ; | W5 RAID 0 类 似 ; 
式 奇偶 校 验 写 比 RAID 5 低 写 显 著 低 于 RAID 5 
6.2.1 RAIDO 级 


RAID 0 级 不 是 RAID 家 族 中 的 真正 成 员 ， 因 为 它 不 采用 宛 余 来 改善 性 能 。 但 是 ， 它 有 一 些 应 
用 ， 例 如 应 用 于 超级 计算 机 上 时 ， 其 性 能 和 容量 仅 是 基本 的 考虑 ， 低 成 本 比 改善 可 靠 性 更 重要 。 





O 在 这 篇 论文 中 ， 首 字母 缩写 词 “RAID” 代 表 廉 价 的 磁盘 元 余 阵 列 。 术 语 “ 廉 价 的 ”是 指 将 RAID 阵列 中 小 且 相 对 
便宜 的 磁盘 与 可 供 选 择 的 、 单 个 的 大 磁盘 ( SLED) 所 进行 的 比较 。SLED 采用 RAID 和 非 RAID 配置 相似 的 磁盘 
技术 ,但 已 是 过 时 设备 。 因 此 ， 业 界 采用 术语 “independent”( 独立 的 ) 来 强调 RAID 阵列 带 来 了 显著 的 性 能 和 可 
靠 性 收益 。 
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g) RAID 6 ( 双 宛 余 度 ) 


图 6-8 RAID 级 别 
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对 于 RAID 0， 用 户 和 系统 数据 分 布 在 阵列 中 的 所 有 磁盘 上 ， 与 单个 大 容量 磁盘 相 比 ， 它 的 
显著 优点 是 : 如 果 两 个 VO 请 求 正在 等 待 两 个 不 同 的 数据 块 ， 则 被 请 求 的 块 可 能 在 不 同 的 磁盘 
上 ， 这 是 一 个 好 机 会 。 因 此 ， 两 个 请 求 能 够 并 行 发 出 ,减少 了 LO 的 排队 时 间 。 

RAID 0 以 及 其 他 所 有 的 RAID 级 ， 与 在 磁盘 阵列 中 简单 地 分 布 数据 相 比 ， 它 能 以 条 带 的 形式 
在 可 用 的 磁盘 上 分 布 数据 ， 因 而 更 加 完善 。 仔 细 研 究 图 6-9 可 加 深 理解 。 所 有 用 户 数据 和 系统 数 
据 被 看 成 是 存储 在 逻辑 磁盘 上 ， 磁 盘 以 条 带 的 形式 划分 ， 这 些 条 带 可 以 是 一 些 物理 的 块 、 鹿 区 或 
其 他 单位 。 数 据 条 带 以 轮转 方式 映射 到 RAID 阵列 中 连续 的 物理 磁盘 。 一 组 逻辑 上 连续 的 条 带 被 
定义 为 条 带 集 ， 它 准确 地 与 阵列 中 每 个 磁盘 中 一 个 条 带 相 映射 。 在 一 个 有 个 磁盘 的 阵列 中 ， 第 
1 组 的 n 个 逻辑 条 带 存 储 在 每 个 磁盘 的 第 1 个 条 带 上 ， 构 成 第 一 个 条 带 集 ; 第 2 组 的 nn 个 逻辑 条 
带 存储 在 每 个 磁盘 的 第 2 个 条 带 上 ; 以 此 类 推 。 这 种 布局 的 优点 是 ， 如 果 单 个 VO TR ae Tk 
辑 相 邻 的 条 带 组 成 ， 则 多 达 对 n 个 条 带 的 请 求 可 以 并 行 处 理 ， 这 样 大 大 地 减少 了 VO 传输 时 间 。 

图 6-9 表示 使 用 阵列 管理 软件 在 逻辑 磁盘 和 物理 磁盘 间 进 行 映射 ， 此 软件 可 在 磁盘 子 系统 或 
主机 上 运行 。 








图 6-9 RAID 0 级 阵列 的 数据 映射 


1. RAID 0 用 于 高 速 数据 传输 

任何 RAID 级 的 性 能 关键 取决 于 主机 的 请 求 方式 和 数据 分 布 。 由 于 RAD 0 中 无 元 余 影响 ， 
所 以 这 些 问 题 能 在 RAID 0 中 很 清楚 地 得 以 分 析 。 首 先 ， 我 们 考虑 使 用 RAID 0 达到 高 速 数据 传输 
的 情况 。 为 了 在 应 用 中 达到 高 速 数 据 传 输 ， 必 须 满足 两 个 要 求 : 第 一 ， 高 速 传输 能 力 必 须 存 在 于 
主 存 和 各 独立 磁盘 之 间 的 整个 路 径 上 。 它 包括 内 部 控制 器 总 线 、 主 系统 VO BA, O 适配器 和 
主机 存储 器 总 线 。 

第 二 ， 应 用 必须 使 驱动 磁盘 阵列 的 IO 请 求 有 效 。 与 一 个 条 带 的 大 小 相 比 ， 如 果 请 求 的 是 大 
量 的 逻辑 相 邻 的 数据 ， 则 满足 这 个 要 求 。 此 时 ， 单 一 1/O 请 求 包含 了 多 个 磁盘 的 并 行 数据 传输 ， 
与 单个 磁盘 传输 相 比 较 ， 显 然 增 大 了 有 效 的 传输 率 。 

2. RAID 0 用 于 高 速 的 I/O 请 求 

在 面向 事务 处 理 的 环境 中 ， 用 户 普遍 关心 的 是 响应 时 间 ， 而 不 是 传输 率 。 对 于 一 个 针对 少 
数据 的 单个 WO 请 求 ， 其 VO 时 间 由 磁头 的 运动 ( 寻 道 时 间 ) 和 磁盘 的 运动 (旋转 延迟 ) 决定 。 

在 这 一 环境 中 ， 每 秒 可 能 有 上 百 个 VO 请 求 。 通 过 平衡 多 磁盘 中 的 IO 负载 ， 磁 盘 阵列 能 提 
供 较 高 的 VO 执行 速度 。 只 有 当 多 个 VO 请 求 发 出 时 ， 才 能 实现 有 效 的 负载 平衡 。 这 意味 着 存在 
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多 个 独立 的 应 用 或 能 进行 多 个 VO 异步 请 求 的 面向 事务 的 单个 应 用 。 性 能 也 将 受到 条 带 大 小 的 影 
响 。 如 果 条 带 容量 相对 大 ， 则 单个 VO 请 求 只 涉及 一 个 磁盘 存 取 ， 因 此 多 个 等 待 VO 的 请 求 能 并 
行 处 理 ， 这 样 就 减少 了 每 个 请 求 的 排队 时 间 。 


6.2.2 RAID 1 级 


RAID 1 与 RAID 2 ~6 级 的 区 别 在 于 实现 元 余 的 方法 。 在 RAID 2 到 RAID 6 中 ,采用 了 奇偶 
校 验 计算 的 某 种 形式 来 引入 宛 余 。 而 在 RAID 1 中 ， 只 是 采用 简单 地 备份 所 有 数据 的 方法 来 实现 
宛 余 。 同 RAD 0 一 样 ，RAID 1 采用 了 数据 条 带 集 ， 如 图 6-8b 所 示 ; 但 在 此 情况 中 ， 它 的 每 个 逻 
辑 条 带 映 射 到 两 个 不 同 的 物理 磁盘 组 中 ， 因 此 ， 阵 列 中 的 每 个 磁盘 都 有 一 个 包含 相同 数据 的 镜 
像 盘 。 

RAID 1 组 织 的 优点 如 下 : 

(1) 一 个 读 请 求 可 以 由 包含 请 求 数据 的 两 个 磁盘 中 的 某 一 个 提供 服务 ， 只 要 它 的 寻 道 时 间 
加 旋转 延迟 较 小 。 

(2) 一 个 写 请 求 需要 更 新 两 个 对 应 的 条 带 ， 但 这 可 以 并 行 完 成 。 因 此 ， 写 性 能 由 两 者 中 较 
慢 的 一 个 写 来 决定 〈 即 包含 较 大 的 寻 道 时 间 和 旋转 延迟 的 那 一 个 写 ) 。 然 而 ，RAID 1 无 “ 写 损 
失 ”。RAID 2 到 RAID 6 使 用 奇偶 校 验 位 ， 因 此 当 修 改 单 个 的 条 带 时 ， 阵 列 管理 软件 必须 先 计 算 ， 
然后 在 修改 实际 条 带 时 也 修改 奇偶 校 验 位 。 

(3) 恢复 一 个 损坏 的 磁盘 很 简单 。 当 一 个 磁盘 损坏 时 ， 数 据 仍 能 从 第 2 个 磁盘 中 读 取 。 

RAID 1 的 主要 缺点 是 价格 昂贵 ， 它 需要 支持 两 倍 于 逻辑 磁盘 的 磁盘 空间 。 因 此 ，RAID1 的 
配置 只 限于 用 在 存储 系统 软件 、 数 据 和 其 他 关键 文件 的 驱动 器 中 。 在 这 种 情况 下 ，RAID 1 对 所 
有 的 数据 提供 实时 备份 ， 即 使 一 个 磁盘 损坏 ， 所 有 的 关键 数据 仍 能 立即 可 用 。 

在 面向 事务 的 环境 中 ， 如 果 有 大 批 的 读 请 求 ， 则 RADI 1 能 实现 高 速 的 IO 速率 ， 此 时 ， 
RAID 1 的 性 能 可 以 达到 RAID 0 性 能 的 两 倍 。 然 而 ， 如 果 IO 请 求 有 相当 大 的 部 分 是 写 请 求 ， 则 
它 不 比 RAID 0 的 性 能 好 多 少 。 对 读 请 求 的 百分比 高 和 数据 传送 密集 的 应 用 ，RAID 1 也 可 以 提供 
对 RAID 0 性 能 的 改进 。 如 果 应 用 把 每 个 读 请 求 分 割 ， 使 得 两 个 磁盘 都 参与 ， 则 性 能 就 会 改善 。 


6.2.3 RAID 2 级 


RAID 2 和 RAID 3 都 使 用 了 并 行 存 取 技 术 。 在 并 行 存 取 阵 列 中 ， 所 有 的 磁盘 成 员 都 参与 每 个 
VO 请 求 的 执行 。 一 般 情 况 下 ， 各 个 驱动 器 的 轴 是 同步 旋转 的 ， 因 此 ， 每 个 磁盘 上 的 每 个 磁头 在 
任何 时 刻 都 位 于 同一 位 置 。 

和 其 他 RAID 方案 一 样 ，RAID 2 采用 数据 条 带 。 在 RAID 2 和 RAID 3 中 ,条 带 非常 小 ， 经 常 
小 到 一 个 字 节 或 一 个 字 。 在 RAID 2 中 ,通过 各 个 数据 盘 上 的 相应 位 计算 纠 错 码 ， 编 码 的 位 存储 
在 多 个 奇偶 校 验 盘 的 对 应 位 。 通 常 ， 采 用 汉 明 码 ， 它 能 纠正 一 位 错误 ， 检 测 两 位 错误 。 

尽管 RAID 2 比 RAID 1 需要 的 磁盘 少 ， 但 价格 仍 相当 昂贵 ， 宛 余 磁 盘 的 数目 与 数据 磁盘 数目 
的 对 数 成 正比 。 对 于 单个 读 操作 ， 所 有 磁盘 同时 读 取 ， 请 求 的 数据 和 相关 的 纠 错 码 被 传送 到 阵列 
控制 器 。 如 果 有 一 位 错误 出 现 ， 则 控制 器 能 够 马上 识别 并 纠正 错误 ， 因 此 读 取 时 间 不 会 减 慢 。 对 
于 单个 写 操作 ， 所 有 数据 盘 和 奇偶 校 验 盘 必 须 被 访问 以 进行 写 操作 。 

RAID 2 只 是 一 种 在 多 磁盘 易 出 错 环境 中 的 有 效 选择 。 对 于 单个 磁盘 和 磁盘 驱动 器 已 给 出 高 
可 靠 性 的 情况 ，RAID 2 没有 什么 意义 。 


6.2.4 RAID3 级 


RAID 3 的 组 织 方式 与 RAID 2 相似 ， 所 不 同 的 是 : 不 管 磁盘 阵列 大 小 ，RAID 3 只 需要 一 个 宛 
Rito RAID 3 采用 并 行 存 取 ， 数 据 分 布 在 较 小 的 条 带 上 。 它 不 采用 纠 错 码 ， 而 采用 对 所 有 数据 
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盘 上 同一 位 置 的 一 组 独立 位 进行 简单 计算 的 奇偶 校 验 位 。 

1. TR 

HEIRAT, TARE, AARRE EAE — E HIR WIR ah Ae 
换 ， 则 可 以 在 新 盘 上 重新 保存 丢失 的 数据 ， 并 且 恢 复 操作 。 

数据 的 重 构 很 简单 。 现 在 考虑 一 个 5 磁盘 的 阵列 ，X0 到 X3 保存 数据 ，X4 是 奇偶 校 验 盘 ， 
奇偶 校 验 的 第 i 位 的 计算 公式 如 下 : 

X4(i) =X3(i)® X2(i)® X1 (i)® X0(i) 

HPORRRZH o 

假设 , 磁盘 X 损坏 ， 在 上 述 等 式 两 边 同 时 加 上 X4(i) 名 X1(i) ， 则 得 到 以 下 等 式 : 

X1(i) =X4(i)® Xx3(i)® X2(i) ® X0(i) 

因此 ，X1 磁盘 上 的 每 个 数据 条 带 的 内 容 都 可 以 从 阵列 中 剩余 磁盘 的 相应 条 带 中 重新 生成 。 
这 条 原则 适用 于 RAID 第 3 ~6 级 。 

当 磁 盘 损 坏 时 ， 所 有 的 数据 仍 有 效 的 情况 ， 我 们 称 为 简化 模式 。 在 这 个 模式 下 的 读 操作 ， 利 
用 异 或 运算 可 以 立即 重新 生成 丢失 的 数据 。 当 数据 写 人 简化 模式 的 RAID 3 阵列 中 时 ， 要 保持 重 
新 生成 数据 的 奇偶 校 验 的 一 致 性 。 返 回 到 全 模式 操作 需要 更 换 损坏 的 磁盘 ， 并 在 新 磁盘 上 重新 
生成 损坏 磁盘 上 的 全 部 内 容 。 

2. 性 能 

因为 数据 被 分 成 非常 小 的 条 带 ， 所 以 RAID 3 能 够 获得 非常 高 的 数据 传输 率 。 任 何 IO 请 求 
将 包含 所 有 数据 盘 的 并 行 数 据 传送 。 对 于 大 量 传送 ， 性 能 改善 特别 明显 。 另 一 方面 ， 一 次 只 能 执 
行 一 个 IO 请 求 ， 因 此 ， 在 面向 事务 的 环境 中 ， 性 能 将 受 损 。 


6.2.5 RAID4& 


RAID 4 到 RAID 6 都 采用 一 种 独立 的 存 取 技术 。 在 独立 存 取 阵 列 中 ， 每 个 磁盘 成 员 的 操作 是 
独立 的 ， 因 此 各 个 VO 请 求 能 够 并 行 处 理 。 基 于 此 原因 ， 独 立 存 取 阵列 更 适合 于 需要 高 速 VO 请 
求 的 应 用 ， 而 相对 较 少 用 于 需要 高 数据 传输 率 的 场合 。 

与 其 他 RAID 方案 一 样 ， 它 采用 数据 条 带 。 在 RAID 4 到 RAD 6 中 ,数据 条 带 相对 大 些 。 在 
RAID 4 中 ， 通 过 每 个 数据 盘 上 的 相应 条 带 来 逐 位 计算 奇偶 校 验 条 带 ， 奇 偶 校 验 位 存储 在 奇偶 校 
验 盘 的 对 应 条 带 上 。 

当 执 行 较 小 规模 的 VO 写 请 求 时 ，RAID 4 蒙受 了 写 损失 。 对 于 每 一 次 写 操作 ， 阵 列 管理 软 
件 不 仅 要 修改 用 户 数据 ， 而 且 要 修改 相应 的 校 验 位 。 现 在 来 考虑 一 个 5 磁盘 的 阵列 ， 其 中 XO 到 
X3 包含 数据 ， 而 X4 是 奇偶 校 验 盘 。 假 设 写 操作 只 在 X 盘 的 一 个 条 带 上 执行 。 初 始 时 ， 对 于 每 
个 第 i 位 ， 有 下 列 关系 : 

X4(i) =X3(i)® X2(i) ® X1 (i) ® X0(i) (6.1) 
修改 后 ， 可 能 改变 的 位 以 撤 号 (') 表示 : 
X4' (i) = X3(i)® X2(i)® X1’(i) ® X0(i) 
= X3(i) ® X2(i)® X1'(i) ® XO ® X1 (i) ® XI (i) 
= X3(i)® X2(i)® X1(i) ® XO @ X1(i) © X1’ (i) 
= X4(i)® X1(i)@ X1'(i) 

由 上 面 的 一 组 公式 可 推导 出 下 列 规则 。 第 一 行 表 明 Xl 发 生 改变 将 影响 奇偶 校 验 盘 X4。 在 第 
二 行 中 ， 加 入 了 名 X1(i) 名 X1(i) 。 因 为 任意 位 与 自身 相 异 或 结果 为 0， 而 0 对 等 式 不 产生 影响 ， 
但 它 能 方便 地 通过 重新 排序 来 形成 第 三 行 。 最 后 ， 根 据 等 式 6.1 用 X4(i) 来 替换 前 面 4 项 。 

为 了 计算 新 的 奇偶 校 验 位 ， 阵 列 管理 软件 必须 读 取 旧 的 数据 条 带 和 奇偶 校 验 条 带 ， 然 后 用 
新 的 数据 和 新 计算 出 的 奇偶 校 验 位 更 新 上 述 两 个 条 带 。 因 此 ， 每 个 条 带 的 写 操 作 包 括 两 次 读 操 
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作 和 两 次 写 操作 。 


当 涉 及 所 有 磁盘 的 数据 条 带 的 较 大 VO 写 操作 时 ， 只 要 用 新 的 数据 位 来 进行 简单 的 计算 即 可 
得 奇偶 校 验 位 。 因 此 ， 奇 偶 校 验 盘 和 数据 磁盘 并 行 更 新 ， 不 再 需要 另外 的 读 或 写 操作 。 
在 任何 情况 下 ， 每 一 次 的 写 操作 必须 涉及 奇偶 校 验 盘 ， 因 此 它 成 为 一 个 瓶颈 。 


6.2.6 RAID 5 级 


RAID 5 和 RAID 4 的 组 织 方式 相似 ， 不 同 的 是 ，RAID 5 在 所 有 磁盘 上 都 分 布 了 奇偶 校 验 条 
带 。 常 用 轮转 分 配方 案 ， 如 图 6-8f 所 示 。 对 于 一 个 n 磁盘 阵列 ， 最 初 的 n 条 带 的 奇偶 校 验 条 带 位 


于 不 同 的 磁盘 ， 然 后 以 此 样式 重复 。 


在 所 有 磁盘 上 分 布 奇偶 校 验 条 带 避 免 了 RAD 4 中 潜在 的 VO 瓶颈 问题 。 


6.2.7 RAID 6 级 


伯克利 研究 小 组 在 后 来 的 论文 中 提出 了 RAID 6 [KATZ89], RAID 6 方案 进行 两 种 不 同 的 奇 
偶 校 验 计算 ， 并 将 校 验 码 以 分 开 的 块 存 于 不 同 的 磁盘 中 。 因 此 ， 用 户 数据 需要 N 个 磁盘 的 RAID 


6 阵列 ， 由 N+2 个 磁盘 组 成 。 


图 6-8g 说 明了 这 种 策略 。P 和 Q 是 两 个 不 同 的 数据 校 验算 法 ， 其 中 一 个 是 用 于 RAID 4 和 
RAID 5 中 的 异 或 计算 ， 另 一 个 是 一 种 独立 的 数据 校 验算 法 。 这 样 ， 即 使 是 包含 用 户 数据 的 两 个 


盘 出 现 故 障 了 ， 数 据 照 样 能 重新 生成 。 


RAID 6 的 优点 是 提供 了 极 高 的 数据 可 用 性 ， 只 有 在 平均 修复 时 间 (mean time to repair, MT- 
TR) 间隔 内 3 个 磁盘 都 出 了 故障 ， 才 会 使 数据 丢失 。 另 一 方面 ，RAID 6 存在 实质 性 的 写 损失 ， 
因为 每 次 写 都 要 影响 两 个 奇偶 块 。 性 能 基准 [EISCO7] 显示 ,与 RAID 5 的 实现 相 比 ，RAID 6 控 
制 器 可 以 承受 超过 30% 的 写 性 能 下 降 。 而 RAID 5 和 RAID 6 的 读 性 能 相当 。 


表 6-4 是 7 个 级 别 的 比较 小 结 。 


表 6-4 RAID 比较 





优点 


缺 点 





通过 将 VO 负载 分 散 到 多 个 通道 和 驱动 
器 ， 极 大 地 改善 了 VO 性 能 

0 无 奇偶 计算 开销 

很 简单 的 设计 

易 实 现 





导致 阵列 全 部 数据 丢失 





数据 100% 的 元 余 ， 意 味 着 磁盘 失效 时 无 
需 重 构 ， 只 需 对 蔡 代 盘 拷 贝 即 可 
1 某 些 环境 下 ，RAID 1 能 承受 多 个 驱动 器 
同时 失效 

最 简单 的 RAID 存储 子 系统 设计 


可 能 有 极 高 的 数据 传输 率 
数据 传输 率 要 求 得 越 高 ， 数 据 盘 对 ECC 
2 | 盘 的 比值 越 好 

与 RAID3、4 和 5 级 相 比 ， 控 制 器 设计 相 
对 简单 


很 高 的 读数 据 传输 率 
很 高 的 写 数据 传输 率 
磁盘 失效 时 对 吞吐 率 无 显著 影响 

ECC (奇偶 ) 盘 对 数据 盘 的 低 比率 意味 
着 高 效率 























在 所 有 RAID 类 型 中 ,磁盘 
数 开销 最 大 (100% ) 低 效 





的 比值 非常 高 一 一 低 效 

入 门 级 成 本 很 高 一 一 要 求证 
实 很 高 数据 传输 率 的 需求 是 恰 
当 的 


只 要 有 某 一 个 驱动 器 失效 就 





短 字 长 时 ，ECC 盘 对 数据 盘 


应 ”用 


视频 制作 和 编辑 

图 像 编辑 

预 压缩 应 用 

任何 要 求 高 带宽 的 应 用 





统计 、 工 资 单 、 财 务 和 任 
何 要 求 很 高 可 用 性 的 应 用 


无 商品 实现 的 存在 /无 商业 


化 应 用 





最 好 情况 ( 如果 主轴 同步 旋 
转 ) 下 的 事务 率 等 同 于 单 盘 的 
事务 率 

控制 器 设计 相当 复杂 











视频 制作 和 直播 

图 像 编辑 

视频 编辑 

预 压 缩 应 用 

任何 要 求 高 吞吐 率 的 应 用 
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( ££) 
级 优 点 ik 点 应 用 
很 高 的 读数 据 事务 率 - 十 分 复杂 的 控制 器 设计 无 商品 实现 的 存在 /无 商业 
ECC (奇偶 ) 盘 对 数据 盘 的 低 比 率 意味 最 差 的 写 事 务 率 和 写 聚 集 传 | 化 应 用 
4 | 着 高 效率 输 率 
磁盘 失效 事件 中 ， 数 据 重 构 
困难 并 低 效 
= SE E 
最 高 的 读数 据 事务 率 最 复杂 的 控制 器 设计 数据 和 应 用 服务 器 
ECC (奇偶 ) 盘 对 数据 盘 的 低 比 率 意 味 磁盘 失效 事件 中 ， 数 据 重 构 数据 库 服 务 器 
着 高 效率 困难 (5 RAID 1 级 相 比 ) Web, E-mail 和 新 闻 组 服 
好 的 聚集 传输 速率 务 器 
Intranet 服务 器 
用 途 最 多 的 RAID 级 
提供 极 高 的 数据 故障 容忍 能 力 并 能 承受 较 复 杂 的 控制 器 设计 对 丢失 数据 严重 的 应 用 是 
6 | 多 个 驱动 器 同时 失效 计算 奇偶 校 验 地 址 的 控制 器 | 理想 的 解决 方案 
开销 非常 高 
6.3 XFMR 


在 1983 年 ， 推 出 的 最 成 功 的 消费 产品 之 一 是 光盘 (CD) 数字 音频 系统 。 光 盘 是 一 种 不 可 擦 
除 盘 ， 它 能 在 单 面 上 存储 超过 60 分 钟 的 音频 信息 。CD 的 巨大 商业 成 功 促进 了 低 成 本 光盘 存储 技 
术 的 发 展 ， 这 一 技术 带 来 了 计算 机 数据 存储 技术 的 一 次 革命 。 现 已 推出 多 种 光盘 系统 (如 表 6-5 
所 示 ) ， 下 面 进行 简要 介绍 。 

表 6-5 光盘 产品 
名 K fi R 


Ch cik, SEB 存储 数字 音频 信息 的 不 可 擦 除 盘 。 标 准 系统 使 用 12 E 
米 的 盘 ， 能 够 记录 可 连续 播放 60 分 钟 以 上 的 信息 


CD-ROM (compact disk read-only memory， 光 盘 只 读 存 用 于 存储 计算 机 数据 的 不 可 擦 除 盘 。 标 准 系统 使 用 12 
































储 器 ) 厘米 的 盘 ， 能 够 存储 650MB 以 上 的 信息 
CD-R (CD recordable， 可 刻录 光盘 ) 类 似 于 CD-ROM， 用 户 只 能 向 盘 写 入 一 次 
CD-RW (CD rewritable， 可 重 写 光盘 ) 类 似 于 CD-ROM， 用 户 能 多 次 擦 除 和 重 写 盘 
一 种 制作 数字 化 的 压缩 的 视频 信息 以 及 其 他 大 容量 数 
DVD (digital versatile disk ， 数 字 多 功能 光盘 ) 字数 据 的 技术 。 使 用 直径 为 8 或 12 厘米 的 盘 ， 双 面容 量 
高 达 17GB。 基 本 的 DVD 是 只 读 的 (DVD-ROM) 
DVD-R (DVD recordable， 可 刻录 DVD) enue PUNEO: BARRARE A 
; 类 似 于 DVD-ROM， 用 户 能 多 次 擦 除 和 重 写 盘 ， 只 有 一 
DVD-RW (DVD rewritable， 可 重 写 DVD) i MeN 
Blu-Ray DVD (High definition video disk ， 高 清晰 视频 光 使 用 405nm ( 蓝 -紫色 ) 的 激光 ， 提 供 比 DVD 大 得 多 
盘 ) 的 数据 存储 密度 , 单 面 单 层 能 存储 25CB 的 信息 
6.3.1 光盘 
1. CD-ROM 


音频 CD 和 CD-ROM 二 者 采用 类 似 的 技术 ， 主 要 区 别 是 CD-ROM 播放 器 更 耐用 ， 并 且 有 纠 错 
设备 来 保证 数据 正确 地 从 光盘 传输 到 计算 机 。 这 两 类 盘 均 采用 相同 方法 制造 ， 盘 本 体 由 树脂 
(如 至 碳酸 酯 ， 制 成 。 数 字形 式 记录 的 信息 (音乐 或 计算 机 数据 ) 以 一 系列 微 止 坑 的 样式 刻录 在 
表面 上 。 首 先 ， 用 精密 聚焦 的 高 强度 激光 束 制 造成 一 个 母 盘 ， 然 后 以 母 盘 作 为 模板 压 印 出 聚 碳酸 
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酯 的 复制 品 。 再 在 凹 坑 表 面 上 镀 上 一 层 高 反射 材料 〈 铝 或 金 ) ， 并 在 这 薄 层 上 涂 一 层 丙烯 酸 树脂 
以 防 灰 侍 或 划 伤 。 最 后 ， 在 丙烯酸 树脂 层 上 面 用 丝 网 印刷 术 印 制 标 签 。 
通过 安装 在 光盘 播放 器 或 驱动 装置 内 的 低 强度 激光 束 从 CD 或 CD-ROM 处 读 取信 息 。 当 马达 

转动 盘 片 使 之 经 过 激光 束 时 ， 激 光束 能 穿 过 透明 的 聚 碳酸 酯 层 ; 当 遇 到 一 个 止 坑 时 ， 激 光 的 反射 
光 强 度 发 生变 化 〈 如 图 6-10 所 示 ) 。 具 体 来 说 ， 激 光束 照 在 四 坑 上 ， 由 于 止 坑 表 面 有 些 不 平 ， 因 
此 光 被 散射 , 反射 回 的 光 强 度 变 弱 。 四 坑 之 间 的 区 域 称 为 台 (land)， 台 的 表面 光滑 平坦 ， 反 射 
回 的 光 强 度 更 高 。 光 传感器 检测 四 坑 与 台 之 间 的 反射 光 强 弱 变 化 ， 并 将 其 转换 成 数字 信号 。 传 感 
器 以 规整 的 间隔 检测 表面 。 一 个 凹 坑 的 开始 或 结束 表示 一 个 1; 间隔 之 间 无 标高 变动 出 现时 ， 记 
录 为 一 个 0。 

丙烯 酸 树脂 

保护 层 标签 





激光 发 射 / 接收 
图 6-10 CD 操作 


回顾 磁盘 ， 其 信息 被 记录 在 同心 圆 的 各 磁道 上 。 对 简单 的 恒定 角速度 (CAV) 系统 而 言 ， 
每 个 磁道 的 位 数 是 固定 的 。 为 增加 存储 密度 可 使 用 多 带 记录 方式 ， 盘 表面 被 划分 成 几 个 带 ， 远 离 
中 心 的 带 比 靠 近 中 心 的 带 能 容纳 更 多 的 位 。 虽 然 这 一 技术 增 大 了 容量 ， 但 它 仍然 不 是 最 优 的 。 

为 了 实现 更 大 的 存储 容量 ，CD 和 CD-ROM 不 使 用 同心 圆 的 道 来 组 织 信息 ， 而 是 整 盘 有 一 条 
螺旋 式 轨道 ， 从 靠近 中 心 处 开始 ， 逐 圈 向 外 旋转 直到 盘 的 外 沿 。 靠 近 外 沿 的 扇 区 与 靠近 中 心 的 扇 
区 具有 相同 的 长 度 。 于 是 ,信息 以 相同 大 小 的 段 均匀 分 布 在 整个 盘 上 ， 并 且 以 相同 的 速度 进行 扫 
描 ， 而 盘 片 以 变速 旋转 。 因 此 ， 四 坑 被 激光 以 恒定 线 速 度 (constant linear velocity, CLV) 读 出 。 
盘 片 在 存 取 外 沿 时 要 比 存 取 内 沿 时 的 旋转 速度 慢 。 于 是 ， 光 道 的 容量 和 旋转 延迟 都 使 定位 光 道 
外 沿 的 时 间 变 长 。CD-ROM 的 数据 容量 大 约 是 680MB。 

CD-ROM 上 的 数据 被 组 织 成 一 系列 的 块 ， 典 型 的 块 格式 如 图 6-11 所 示 ， 它 包含 如 下 的 一 
些 域 : 

e Sync: 此 同步 域 标志 一 个 块 的 开始 ， 由 12 个 字 节 组 成 ， 第 1 个 字 节 为 全 0, 第 2~11 个 

字 节 为 全 1， 第 12 个 字 节 为 全 0。 








12 字 节 | 4 字 节 | 2048 字 节 288 字 节 
| SYNC ID 数据 L-ECC 


2352 字 节 


图 6-11 CD-ROM 块 格式 
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e Header: 此 头 部 域 包含 块 地 址 和 模式 字 节 ， 也 称 为 块 的 标识 (ID) 域 。 模 式 0 表示 一 个 
空 的 数据 域 ， 模 式 1 表示 使 用 纠 错 码 和 2048 字 节 的 数据 ， 模 式 2 表示 不 带 纠 错 码 的 2336 
个 字 节 的 用 户 数据 。 

e Data: 用 户 数据 域 。 

e Auxiliary: 此 辅助 域 在 模式 2 下 是 附加 用 户 数据 ， 在 模式 1 下 是 288 字 节 的 纠 错 码 。 

采用 CLV， 随 机 存 取 变 得 更 加 困难 。 定 位 到 一 个 指定 地 址 ， 涉 及 移动 头 到 某 个 区 域 、 调 整 转 
速 和 读 地 址 ， 然 后 再 微调 以 找到 并 读 取 指定 扁 区 。 

CD-ROM 适合 于 将 大 量 数据 发 布 给 众多 用 户 。 由 于 初始 的 写 过 程 开 销 较 大 ， 因 此 它 不 适合 于 
单个 应 用 。 与 传统 的 磁盘 相 比 ，CD-ROM 有 两 个 优点 : 

e 与 磁盘 不 同 ， 存 储 有 信息 的 光盘 批量 复制 价格 便宜 ; 而 磁盘 上 的 数据 库 复 制 每 次 都 要 通 

过 两 个 磁盘 驱动 器 间 的 复制 来 完成 。 
o 光盘 是 可 换 的 ， 人 允许 光盘 作为 归档 存储 ; 而 大 多 数 硬 盘 是 不 可 更 换 的 ， 硬 盘存 储 新 信息 
前 ， 必 须 将 原来 有 用 信息 转 存 到 其 他 存储 介质 上 。 

CD-ROM 的 缺点 是 : 

。 它 是 只 读 的 ， 不 能 修改 。 

© 其 存 取 时 间 比 磁盘 驱动 器 的 长 得 多 ， 大 约 半 秒 钟 。 

1. CD-R 

为 适应 只 需 一 组 数据 的 一 个 或 少数 几 个 备份 的 应 用 ， 开 发 了 一 写 多 读 CD ， 称 为 可 刻录 CD 
(CD-R). CD-R 盘 用 适当 强度 的 激光 可 写 人 一次。 因此 ， 其 盘 控 制 器 比 CD-ROM 的 要 贵 些 ， 用 
户 一 次 性 写 人 后 可 多 次 读 出 。 

CD-R 的 介质 类 似 于 但 不 完全 等 同 于 CD 或 CD-ROM 的 介质 。 对 于 CD 和 CD-ROM, ， 信 息 通过 
介质 表面 的 上 四 坑 来 记录 ， 这 些 四 坑 改 变 了 激光 的 反射 率 。 而 对 于 CD-R， 其 介质 还 包括 了 一 个 染 
色 层 。 该 染色 层 被 用 来 改变 反射 率 ， 并 且 由 高 强度 激光 激活 。 生 成 的 盘 既 能 在 CD-R 驱动 器 上 也 
能 在 CD-ROM 驱动 器 上 读 出 。 

CD-R 光盘 适宜 用 于 文档 和 文件 的 归档 存储 ， 它 提供 了 大 量 用 户 数据 的 永久 性 记录 。 

2. CD-RW 

这 种 可 重 写 光 盘 (CD-RW) 和 磁盘 一 样 可 重复 地 写 和 改写 。 虽 然 人 们 尝试 了 几 种 办 法 ,但 
真正 可 行 的 纯 光 学 办 法 是 相 变 (phase change) 盘 。 相 变 盘 使 用 了 一 种 在 两 种 不 同 相 位 状态 下 有 
两 种 显著 不 同 反 射 率 的 材料 。 一 种 是 无 定形 状态 ， 分 子 展示 出 一 种 随机 取向 ， 从 而 反射 率 低 ; 另 
一 种 是 结晶 状态 ， 表 面 光 滑 ， 反 射 率 高 。 激 光束 能 改变 材料 的 相位 状态 ， 用 于 记录 信息 。 相 变 盘 的 
主要 缺点 是 材料 老化 最 终 会 失掉 相位 可 变 的 特性 ， 当 前 的 材料 可 用 于 50 万 次 到 100 万 次 的 擦 除 。 

与 CD-ROM 和 CD-R 相 比 ，CD-RW 的 明显 优势 在 于 能 够 重 写 ， 因 此 可 作为 真正 的 辅助 存储 
器 。 正 因 如 此 ， 它 能 与 磁盘 竞争 。 这 种 光盘 的 关键 优点 是 : 光盘 的 工程 容错 比 大 容量 磁盘 小 得 
多 ， 因 此 它 具 有 较 高 的 可 靠 性 和 较 长 的 使 用 寿命 。 


6.3.2 ”数字 多 功能 光盘 


由 于 大 容量 的 数字 多 功能 光盘 (DVD) 的 出 现 ， 电 子 业界 最 终 找到 了 模拟 VHS 视频 带 的 一 
种 可 以 接受 的 替代 物 ，DVD 已 经 替代 用 于 视频 卡 盒 记 录 器 (VCR) 中 的 视频 带 。 最 重要 的 是 它 
还 将 取代 个 人 计算 机 和 服务 器 中 的 CD-ROM, DVD 使 影视 节目 进入 数字 时 代 ， 它 演播 的 影片 有 
极 好 的 画面 质量 ， 并 且 也 能 像 音 频 CD 盘 (DVD 机 器 也 可 以 播放 ) 那样 随意 访问 。DVD 的 容量 
非常 大 ， 当 前 是 CD-ROM 容量 的 7 倍 。 由 于 DVD 的 大 容量 和 高 质量 ，PC 游戏 已 经 变 得 更 逼真 、 
教育 软件 也 会 包括 更 多 画面 。 紧 接着 这 些 开 发 而 来 的 是 ， 当 这 些 内 容 进 入 Web 站 点 之 后 ，Inter- 
net 和 企业 内 联网 上 的 信息 流量 将 会 达到 一 个 新 高 峰 。 
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标签 
保护 层 T a 
(丙烯 酸 树 脂 ) _ aca 


聚 碳酸 栈 衬 底 上 激光 聚焦 于 反射 层 前 的 
(塑料 ) 聚 碳酸 酯 四 坑 上 






反射 层 〈 铝 ) 


a) CD-ROM， 容 量 : 682MB 
聚 碳酸 酯 衬 底 ， 面 2 






半 反 射 面 ， 面 2 

聚 碳酸 酯 层 ， 面 2 

kN, 2 QUAE oa aa 

全 反射 层 ， 面 1 J N~ S o 
聚 碳酸 酯 层 ， 面 1 | 

半 反 射 层 ， 面 1 上 ”激光 每 次 聚集 于 一 面 一 层 的 思 坑 
epi 上 ， 读 另 一 面 ， 必 须 翻 转 


b) DVD-ROM， 双 面 双 层 容 量 : 17GB 
图 6-12 CD-ROM All DVD-ROM 


DVD 的 更 大 容量 是 由 于 它 与 CD 有 3 个 不 同 点 (参见 图 6-12): 

(1) DVD 上 的 位 组 装 更 紧密 。CD 上 的 螺旋 式 光 道 的 圈 间 间隙 是 1.6pm， 光 道上 媚 坑 之 间 的 
最 小 距离 是 0.834pm。 而 DVD 的 激光 波长 更 短 ， 并 实现 圈 间 间隙 是 0.74pym 和 四 坑 间 最 小 间距 是 
0.4nm。 这 两 方面 的 改进 ， 导 致 DVD 的 容量 大 约 是 CD-ROM 的 7 倍 ， 大 约 4.7GB。 

(2) DVD 采用 双 层 结构 〈 在 第 一 层 的 顶部 设置 凹 坑 和 台 的 第 二 层 ) 。 双 层 DVD 在 反射 层 上 
有 一 个 半 反 射 层 ，DVD 驱动 器 中 的 激光 通过 调整 焦距 能 分 别 读 取 每 一 层 。 这 一 技术 使 盘 的 容量 
几乎 翻 一 番 ， 达 到 大 约 8.5GB。 由 于 第 二 层 的 反射 率 较 低 ， 限 制 了 此 层 的 容量 ， 故 容量 的 完全 翻 
倍 未 能 实现 。 

(3) DVD 能 用 两 面 记录 数据 ， 而 CD 只 能 用 一 面 ， 这 使 DVD 总 的 容量 高 达 17GB。 

与 CD 一 样 ，DVD 也 有 只 读 的 和 可 写 的 版 本 (参见 表 6-5)。 


6.3.3 ”高 清晰 光盘 


高 清晰 光盘 是 为 了 存储 高 清晰 度 的 视频 ， 并 提供 比 DVD 容量 大 得 多 的 存储 空间 而 设计 的 。 
通过 使 用 更 短波 长 的 激光 ， 在 蓝 -紫光 范围 ， 可 实现 更 高 的 位 密度 。 与 DVD 相 比 ， 高 清晰 光盘 由 
于 使 用 的 激光 波长 较 短 ， 因 此 其 盘面 上 组 成 数字 0 和 1 的 数据 止 坑 较 小 。 

最 初 竞争 市 场 的 两 种 光盘 格式 和 技术 是 : HD DVD 和 蓝光 DVD， 但 蓝光 光盘 方案 最 终 占据 了 
市 场 的 统治 地 位 。HD DVD 方案 能 够 在 光盘 单 面 的 单 层 上 存储 15GB 的 数据 。 蓝 光 放 置 光盘 上 的 
数据 层 更 靠近 激光 (如 图 6-13e 所 示 ) ， 这 就 使 得 焦距 变 短 、 失 真 变 小 ， 因 此 凹 坑 和 光 道 都 变 小 。 
蓝光 光盘 能 单 面 存储 25GB 的 数据 。 目 前 有 3 个 可 用 版 本 : 只 读 (BD-ROM) ， 写 入 一 次 (BD-R) 
和 可 重复 写 (BD-RE)。 





激光 波长 =780nm 





b) DVD 
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0.58um 


c) 蓝光 


图 6-13” 光 存储 器 特性 


6.4 磁带 





磁带 系统 使 用 与 磁盘 系统 相同 的 读 取 和 记录 技术 。 介 质 是 柔韧 的 聚 酯 〈 与 某 些 衣物 的 材料 
相似 ) 薄膜 带 ， 外 涂 磁性 材料 ; 它 可 以 是 用 专用 胶 黏合 的 纯 金 属 材料 ， 也 可 以 是 汽 相 扩散 渗 镀 
的 金属 薄膜 。 磁 带 和 磁带 机 与 家 用 的 磁带 录音 机 相似 。 磁 带宽 度 从 0.38 厘米 〈0.15 英寸 ) 到 
1.27 厘 米 (0.5 英寸 ) 之 间 变 化 。 磁 带 组 装 成 一 个 有 开口 的 卷 简 ， 使 用 时 要 将 它 穿 到 第 二 个 转轴 


上 。 实 际 上 , 今天 所 有 的 磁带 都 是 盒 式 的 。 


磁带 上 的 数据 被 构造 成 几 个 并 行 的 磁道 。 早 期 的 磁带 系统 一 般 使 用 9 个 磁道 ， 这 使 得 每 次 可 
以 存 取 一 个 字 节 ， 而 第 9 磁道 上 有 附加 的 奇偶 校 验 位 。 后 来 的 磁带 系统 使 用 18 或 36 个 磁道 ， 对 
应 于 一 个 数据 字 或 双 字 。 此 种 格式 的 数据 记录 被 称 为 并 行 记 录 (parallel recording) 。 而 大 多 数 现 
代 的 系统 使 用 串 行 记录 (serial recording) ， 数 据 作 为 一 系列 的 位 沿 磁 道 顺 序 排 放 ， 如 同 磁盘 那 
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样 。 与 磁盘 相同 ， 磁 带 数 据 以 连续 的 块 来 
进行 读 和 写 操 作 ， 这 些 块 被 称 为 物理 记录 
(physical records) 。 磁 带 上 的 块 由 记录 间 阶 
(interrecord gap) 来 分 隔 。 与 磁盘 一 样 ， 磁 
带 格式 化 有 助 于 定位 物理 记录 。 

用 于 串 行 磁带 的 典型 记录 技术 称 为 蛇 
形 记 录 (serpentine recording ) 。 在 此 技术 
中 ， 当 记录 数据 时 ， 首 先 沿 整个 磁带 长 记 
录 下 第 一 组 数据 位 ; 到 达 带 的 尾 端 时 ， 磁 
头 再 重新 定位 到 新 磁道 上 ， 又 一 次 沿 整 个 
带 长 记录 ， 只 不 过 这 次 是 在 相反 方向 上 。 
这 个 过 程 继 续 进行 下 去 ， 直 到 磁带 各 磁道 
写 满 (如 图 6-14a 所 示 )。 为 了 提高 速度 ， 
读 - 写 头 能 同时 对 几 个 相 邻 磁道 (通常 是 2 


s ||||| 
st |I 
i 


带 的 底 边 


磁道 3 [4] 
磁道 2 [3 | 
磁道 ! [2 
磁道 0 C] 


a) 蛇 形 读 和 写 
oz) 
on 
— 人 磁带 运动 方向 
b) 同时 读 写 4 磁道 的 数据 块 分 布 


图 6-14 典型 的 磁带 特征 
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到 8 磁道 ) 进行 读 写 操作 。 数 据 仍 是 沿 各 磁道 串 行 记录 ,但 各 块 依 序 存储 在 相 邻 的 磁道 上 ， 如 图 
6-14b 所 示 。 

磁带 驱动 器 是 一 种 顺序 存 取 (sequential-access) 设备 。 如 果 磁头 当前 定位 于 记录 1, WAT 
读 记 录 N， 它 必须 依次 读物 理 记录 1 到 N - 1， 每 次 一 个 。 如 果 磁头 当前 定位 已 超越 所 需 记录 ， 
则 它 必须 倒 带 一 定 距离 ， 青 开始 向 前 读 。 与 磁盘 不 同 ， 磁 带 只 是 在 读 / 写 操作 期 间 才 运动 。 

与 磁带 相 比 ， 磁 盘 驱动 器 是 一 种 直接 存 取 (direct-access) 设备 。 磁 盘 驱动 器 不 需要 顺序 读 
取 磁 盘 上 所 有 扇 区 来 得 到 要 求 的 某 个 扇 区 。 它 只 需要 在 一 个 磁道 上 等 待 相关 扇 区 并 能 连续 存 取 
任 一 磁道 。 

磁带 是 最 早 的 辅助 存储 器 ， 作 为 存储 器 层次 体系 结构 中 最 低 成 本 、 最 慢 速度 的 成 员 ， 至 今 仍 
广泛 使 用 。 

现在 市 场 上 占 统治 地 位 的 磁带 技术 是 一 种 称 为 线性 磁带 开放 协议 (LTO) 的 匣 驱 动 系统 。 
LTO 是 20 世纪 90 年 代 后 期 开发 的 ， 它 是 市 场 上 可 供 各 种 专利 系统 选择 的 开放 资源 。 表 6-6 给 出 
了 各 代 LTO 产品 的 参数 。 详 细 内 容 参见 附录 J。 
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LTO-1 LTO-2 LTO-3 LTO-4 LTO-5 LTO6 
发 布 时 间 2005 2007 TBA TBA 
压缩 容量 1600 GB 3.2 TB 6.4 TB 
压缩 传输 率 ( MB/s) 240 360 540 
线 密度 ( bit/mm) 4880 13 300 [ 
磁带 磁道 384 896 
磁带 长 度 (m) | 609 820 
磁带 宽度 (cm) 1.27 1.27 











6.5 ”推荐 的 读物 和 Web 站 点 

[JAC008] 提供 了 磁盘 的 立体 图 。 [MEE96a] 给 出 了 对 磁盘 和 磁带 系统 底层 的 记录 技术 的 很 好 综述 。 
[ MEE96b] 则 关注 磁盘 和 磁带 系统 的 数据 存储 技术 。[ COME00] 是 一 篇 短文 章 ， 但 在 论述 磁盘 存储 技术 当 
前 发 展 趋势 方面 具有 指导 意义 。[ RADD08] 和 [ANDE03] 提供 了 最 近 的 磁盘 存储 技术 讨论 。 

[CHEN94] 由 RAID 概念 的 提出 者 撰写 ， 它 是 对 RAID 技术 的 绝妙 总 结 。[ FRIE96] 是 一 篇 好 的 综述 文 
章 。[CHEN96] 给 出 了 几 种 RAID 体系 结构 的 性 能 比较 。 

[MARC90] 极 好 地 概述 了 光 存储 器 领域 。[ MANS97 ] 给 出 了 基础 记录 和 读 取 技 术 的 综述 。 

[ ROSC03] 介绍 了 所 有 的 外 部 存储 系统 和 每 种 系统 的 详细 技术 。[ KHUR01] 是 另 一 篇 好 的 综述 文章 。 
[HAEU07] 提供 了 LTO 的 细节 处 理 。 
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ble Secondary Storage.” ACM Computing Surveys, June 1994. 

CHEN96 Chen, S. , and Towsley, D. “A Performance Evaluation of RAID Architectures. ” IEEEE Transac- 
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e Optical Storage Technology Association: 有 关 光 存储 技术 和 厂商 的 好 的 信息 源 ， 并 有 相关 链接 的 详 


细 列 表 。 


e LTO Web site: 提供 LTO 技术 和 供应 商 的 信息 。 


6.6 ”关键 词 、 思 考题 和 习题 


关键 词 

access time: 存 取 时 间 

Blu-ray: 蓝光 光盘 

CD: 光盘 

CD-ROM: 只 读 CD 

CD-R: 可 刻录 CD 

CD-RW: 可 重 写 CD 

constant angular velocity (CAV): 恒定 角速度 
constant linear velocity (CLV): 恒定 线 速度 
DVD: 数字 多 功能 光盘 

DVD-ROM: 只 读 DVD 

DVD-R: 可 刻录 DVD 

DVD-RW: 可 重 写 DVD 

fixed-head disk: 固定 头 磁盘 

floppy disk: 软磁盘 

gap: la) BR 

head; 头 

land: G 


magnetic disk :磁盘 


思考 题 

6.1 磁盘 使 用 玻璃 衬 底 有 什么 好 处 ? 
6.2 ”数据 如 何 写 到 磁盘 中 ? 

6.3 ”数据 如 何 从 磁盘 读 出 ? 


magnetic tape: 磁带 
magnetoresistive: RH 
movable-head disk; 可 移 头 磁 盘 
multiple zoned recording; 多 重 区 域 记录 
nonremovable disk; 不 可 更 换 式 盘 
optical memory: 光 存 储 器 

pit: Mbt 

platter; 盘 片 

RAID; 磁盘 元 余 阵列 

removable disk; 可 更 换 式 磁盘 
rotational delay: 旋转 延迟 

sector; J XK 

seek time; 寻 道 时 间 

serpentine recording: 蛇 形 记录 
striped data: 条 带 数 据 

substrate; 衬 底 

track: 磁道 ， 道 

transfer time: 传送 时 间 
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6.4 
6.5 
6.6 
6.7 
6.8 
6.9 
6.10 
6.11 
6.12 
6.13 
6.14 
6.15 


说 明 简 单 的 CAV 系统 与 多 带 记 录 系 统 的 区 别 。 
定义 磁道 、 柱 面 和 扇 区 三 个 术语 。 

扇 区 的 通常 大 小 是 多 少 ? 

定义 寻 道 时 间 、 旋 转 延 迟 、 存 取 时 间 和 传送 时 间 四 个 术语 。 
所 有 RAID 级 别 的 公共 特征 是 什么 ? 

简要 定义 RAID 的 7 个 级 别 。 

解释 术语 “条 带 化 数据 ” 。 

RAID 系统 中 如 何 实现 宛 余 ? 

在 RAID 环境 中 ， 并 行 存 取 和 独立 存 取 有 何不 同 ? 
CAV 和 CLV 有 何不 同 ? 

什么 原因 造成 DVD 比 CD 有 更 大 的 盘 容 量 ? 
解释 何 为 蛇 形 记录 。 


习题 


6.1 


6.2 


6.3 


6.4 


6.5 


考虑 一 个 及 个 磁道 的 磁盘 ， 磁 道 编号 由 0 到 (CN -1) ， 并 假定 所 要 求 的 扇 区 随机 分 布 在 磁盘 上 。 请 

计算 寻 道 平均 越过 的 磁道 数 。 

(a) 计算 磁头 当前 位 于 磁道 之 上 时 长 度 为 7 的 寻找 概率 。 提 示 : 此 时 需要 确定 无 需 越 道 的 各 种 组 合 的 
总 数 。 

(b) 计算 长 度 为 天 的 寻 道 概率 。 提 示 : 这 涉及 对 超过 天 个 磁道 的 所 有 可 能 组 合 求 和 。 

(c) 计算 寻 道 越过 的 平均 磁道 数 ， 对 期 望 值 使 用 如 下 公式 : 


E[x] = >i x PrLx =i] 
提示 : 可 使 用 如 下 等 式 : 
= 1 EN n(n+1)(2 1 
Sine Dr a (n + Ont ) 


(d) 说 明 : 对 于 一 个 大 的 入 值 ， 寻 道 平 均 越过 的 磁道 数 约 为 N/3。 

为 一 个 磁盘 系统 定义 如 下 参数 : 

t, = 寻 道 时 间 ; 磁头 定位 在 磁道 上 的 平均 时 间 

r= 磁盘 的 旋转 速度 ， 转 / 秒 

n = A K 

N= 一 个 磁道 的 容量 ， 单 位 : 位 

t, = 存 取 一 个 扇 区 的 时 间 

请 推导 i 关于 其 他 参数 的 函数 关系 式 。 

考虑 一 个 有 8 个 面 的 磁盘 驱动 器 ， 每 面 有 512 个 磁道 ， 每 道上 有 64 个 而 区 ， 扇 区 大 小 为 IKB。 平 均 寻 

道 时 间 是 8ms， 道 间 移动 时 间 是 1.5ms， 磁 盘 转速 为 3600rpm。 可 以 读 取 同 一 柱 面 上 的 连续 磁道 而 磁头 

不 需要 移动 。 

(a) 磁盘 容量 是 多 少 ? 

(b) 平均 存 取 时 间 是 多 少 ? 假设 某 文件 被 存储 在 连续 柱 面 的 连续 扇 区 和 连续 磁道 上 ， 起 始 位 置 为 柱 面 
:上 第 0 道 的 第 SAK, 

(c) 估计 传送 SMB 大 小 的 文件 所 需要 的 时 间 。 

(d) 突 发 传送 率 是 多 少 ? 

考虑 一 个 单 片 磁盘 ， 它 有 如 下 参数 : 旋转 速率 是 7200rppm， 一面 上 的 磁道 数 是 30 000， 每 道 扇 区 数 是 

600， 寻 道 时 间 是 每 横越 100 个 磁道 用 时 lms。 假 定 开始 时 磁头 位 于 磁道 0， 磁 盘 收 到 一 个 存 取 随 机 磁 

道上 随机 扇 区 的 请 求 。 

(a) 平均 寻 道 时 间 是 多 少 ? 

(b) 平均 旋转 延迟 是 多 少 ? 

(c) 一 个 扇 区 的 传送 时 间 是 多 少 ? 

(d) 满足 此 请 求 的 总 的 平均 时 间 是 多 少 ? 

物理 记录 和 逻辑 记录 有 区 别 。 逻 辑 记录 (logical record) 是 相关 数据 元 素 的 集合 ， 它 作为 概念 性 的 单 
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位 ， 与 信息 如 何 存储 和 在 何 处 存储 无 关 。 物 理 记录 (physical record) 是 存储 空间 的 一 个 连续 区 域 ， 它 
由 存储 设备 的 特性 和 操作 系统 定义 。 

假定 在 一 个 磁盘 系统 中 ， 每 个 物理 记录 包含 30 个 120 字 节 长 的 逻辑 记录 。 若 此 磁盘 系统 有 8 面 ， 每 面 
有 110 磁道 ， 每 道 有 96 扇 区 ， 每 扇 区 固定 长 512B; 请 计算 存储 300 000 逻辑 记录 将 需要 多 大 的 磁盘 空 
间 (以 扇 区 、 磁 道 、 面 数 来 表示 ) 。 忽 略 任何 文件 头 部 记录 和 磁道 索引 ， 并 假设 记录 不 能 跨 两 个 扇 区 。 

6.6 ”考虑 一 个 转速 为 3600rpm 的 磁盘 ， 磁 头 在 相 邻 磁道 间 的 移动 时 间 为 2ms ， 每 个 磁道 上 32 个 扇 区 ， 它 们 以 线性 
次 序 存储 ， 编 号 从 0 到 31。 磁 头 以 升序 访问 这 些 扇 区 。 假 设 开始 时 读 / 写 磁头 停留 在 第 8 道 第 1 号 扇 区 的 位 
置 ， 而 主 存储 器 缓冲 器 足够 容纳 整个 磁道 。 数 据 传送 在 磁盘 区 域 之 间 进 行 ， 通 过 先 从 源 磁 道 读 入 主 存储 器 组 
神器 中 ， 然 后 再 由 主 存储 器 缓冲 器 写 人 目标 磁道 来 完成 。 

(a) 将 第 8 磁道 第 1 号 扇 区 的 数据 传送 到 第 9 磁道 第 1 号 扇 区 需要 多 长 时 间 ? 
(b) 若 将 第 8 磁道 上 所 有 扇 区 的 数据 传送 到 第 9 磁道 的 相应 扇 区 上 ， 那 耗 时 又 是 多 少 ? 

6.7” 当 条 带 的 大 小 小 于 IO 请 求 时 ， 很 显然 ， 以 条 带 划 分 磁盘 能 提高 数据 的 传送 速度 。 由 于 多 个 VO 请 求 
能 并 行 处 理 ，RAID 0 相对 于 单个 大 磁盘 提供 了 改进 的 性 能 ， 这 一 点 也 是 很 明显 的 。 然 而 ， 后 一 种 情况 
磁盘 需要 用 条 带 划 分 吗 ? 即 与 不 用 条 带 划 分 的 磁盘 阵列 相 比 ， 它 是 否 改 进 了 IO 请 求 速度 的 性 能 ? 

6.8 考虑 一 个 有 4 个 磁盘 ， 每 个 磁盘 200GB 的 RAID 阵列 。 对 于 RAID 0、1、2、3、4、5 和 6 级 中 的 各 级 ， 
有 用 数据 的 存储 容量 是 多 大 ? 

6.9 ”对 于 某 一 光盘 ， 声 音 通过 16 比特 采样 来 转换 成 数字 信号 ， 并 且 被 处 理 成 8 位 的 字 节 流 进行 存储 。 存 储 

这 种 数据 的 一 种 简单 方案 称 为 直接 记录 ， 使 用 台 表 示 1， 四 坑 表 示 0。 而 在 另 一 种 方案 中 ， 每 个 字 节 扩 
展 为 14 位 二 进 制 数 。 结 果 表 明 在 16134 (2*) 个 14 位 数据 中 正好 有 256 (2°) 个 数据 ， 其 二 进 制 在 每 
两 个 1 之 间 至 少 有 两 个 0， 这 些 数据 用 来 将 8 位 扩展 为 14 位 。 光 学 系统 检测 到 从 人 台 到 四 坑 或 从 止 坑 到 
台 的 跳 变 记 为 1， 同 时 通过 计量 强烈 变换 之 间 的 距离 来 记录 0。 这 种 方案 要 求 不 存在 连续 的 1， 因 此 采 
用 8 ~14 位 编码 。 
这 种 方案 的 优点 如 下 : 对 于 给 定 的 激光 束 直 径 ， 无 论 每 一 位 用 什么 表示 ， 都 存在 一 个 最 小 止 坑 尺 寸 。 
采用 这 一 方案 ， 该 最 小 上 四 坑 存 储 3 位， 因为 每 个 1 后 面 都 有 两 个 0。 而 采用 直接 记录 时 ， 同 样 的 凹 坑 仅 
仅 只 能 存储 1 位 。 考 虑 每 一 个 止 坑 存 储 的 位 数 和 8 ~ 14 位 扩展 ， 哪 种 方案 能 存储 更 多 的 位 ， 并 说 明 
原因 ? 

6.10 ”为 计算 机 系统 设计 一 种 备份 策略 。 一 种 方法 是 使 用 外 部 可 插入 磁盘 ， 其 成 本 是 每 500GB 的 磁盘 驱动 器 
花费 150 美元 。 另 一 种 方法 是 花 2500 美元 购买 一 个 磁带 驱动 器 ， 并 用 50 美元 购买 一 个 400GB 的 磁带 
(这 是 2008 年 的 市 场 价格 ) 。 通 常 的 备份 方案 是 使 用 两 组 现场 备份 媒体 ， 此 时 备份 可 选择 性 地 写 入 它 
们 中 ， 因 此 万 一 系统 备份 失败 ， 前 面 的 备份 还 是 完整 的 。 同 时 还 存在 场 外 的 另 一 组 媒体 ， 场 外 的 组 定 
时 地 和 现场 的 某 一 组 进行 数据 交换 。 

(a) 假设 你 有 1TB (1000GB) 的 数据 要 进行 备份 ， 一 个 磁盘 备份 系统 的 费用 是 多 少 ? 
(b) 一 个 1TB 的 磁带 备份 系统 的 费用 是 多 少 ? 

(c) 为 了 使 磁带 备份 方案 更 省 钱 ， 每 一 个 备份 需要 多 大 ? 

(d) 哪 种 备份 方法 更 适用 于 磁带 ? 
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输 入 / 输 出 


本 章 要 点 


© 计算 机 系统 的 IO 体系 结构 是 系统 与 外 部 世界 的 接口 。 这 种 体系 结构 提供 了 一 种 控制 计 
算 机 与 外 部 世界 交互 的 系统 化 方式 ， 并 向 操作 系统 提供 有 效 地 管理 LO 行为 的 必要 信息 。 
e 有 3 种 基本 的 LO 技术: MEA I/O (Programmed V0) HA, WEHR INO 操作 的 程序 
的 直接 和 连续 的 控制 下 所 发 生 的 YO 操作 ; 中 断 驱动 式 |/O 〇 (Interrupt-driver /O) 技术 ， 
即 程序 发 出 IO 命令 后 继续 执行 ， 直 到 被 VO 硬件 中 断 ， 通 知 它 VO 操作 完成 ; LAB 
接 存储 器 存 取 (DMA) KA, WAEN ANO 处 理 器 接管 VO 操 
作 的 控制 ， 在 LO 设备 与 存储 器 之 间 直 接 传送 大 量 数据 。 
e 外 部 LO 接口 的 两 个 重要 实例 是 : FireWire 和 Infiniband, 
除了 处 理 器 和 一 组 存储 器 模块 外 ， 计 算 机 系统 的 第 三 个 关键 部 件 是 一 
组 输入 /输出 (0) 模块 。 每 个 模块 连接 到 系统 总 线 或 中 央 交 换 器 ， 并 且 O 系统 设计 工具 
控制 一 个 或 多 个 外 围 设备 。 一 个 VO 模块 不 是 简单 地 将 设备 连接 到 系统 总 
线 的 一 组 机 械 连 接 器 ， 而 是 包含 了 执行 设备 与 系统 总 线 之 间 通 信 功 能 的 逻辑 。 
读者 可 能 会 奇怪 为 什么 不 把 外 设 直接 连接 到 系统 总 线 上 ， 原 因 如 下 : 
© 各 种 外 设 的 操作 方法 是 不 同 的 ， 将 控制 一 定 范围 的 外 设 的 必要 逻辑 合并 到 某 个 处 理 器 内 
是 不 现实 的 。 
© 外 设 的 数据 传送 速度 一 般 比 存储 器 或 处 理 器 的 慢 得 多 ， 因 此 ， 使 用 高 速 的 系统 总 线 直 接 


与 外 设 通信 是 不 切实 际 的 。 闻 址 

。 另 方面 ， 茶 些 外 设 的 数据 传送 速率 比 存储 C | ， 
器 或 处 理 器 要 快 ， 同 样 ， 若 不 适当 管理 ， 则 ——— E BA 
速度 失 配 将 导致 无 效 。 Pa il 

e 外 设 使 用 的 数据 格式 和 字 长 度 通常 与 处 理 器 
不 同 。 

因此 ，LO 模块 是 必需 的 ， 它 有 两 大 主要 功能 

(如 图 7-1 所 示 ) : 











© 通过 系统 总 线 或 中 央 交 换 器 与 处 理 器 和 存储 
e 通过 专用 数据 线 与 一 个 或 多 个 外 设 连 接 。 
本 章 首先 简要 讨论 外 部 设备 ， 接 着 介绍 O 模 Ari anan 


块 的 结构 和 功能 。 然 后 叙述 与 处 理 器 和 存储 器 协同 
工作 以 完成 V0 功能 的 各 种 方式 : 内 部 VO 接口 。 最 后 讨论 VO 模块 与 外 界 之 间 的 外 部 VO 
接口 。 


7.1 外 部 设备 

VO 操作 是 通过 各 种 外 部 设备 来 完成 的 ， 这 些 外 部 设备 提供 了 外 部 环境 和 计算 机 之 间 交 换 数 
据 的 方式 。 外 部 设备 通过 IO 模块 的 链接 而 与 计算 机 相连 (如 图 7-1 所 示 ) ， 这 种 链接 可 以 实现 
IO 模块 与 外 部 设备 之 间 的 控制 信息 、 状 态 信息 和 数据 信息 的 交换 。 连 接 到 1/0 模块 的 外 部 设备 
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通常 被 称 为 外 围 设备 (peripheral device) 或 简称 为 外 设 (peripheral) 。 

从 广义 上 可 以 将 外 部 设备 分 为 3 类 : 

e 人 可 读 设备 : 适用 于 与 计算 机 用 户 通信 。 

。 机 器 可 读 设备 : 适用 于 与 设备 通信 。 

。 通信 设备 : 适用 于 与 远程 设备 通信 。 

人 可 读 设备 如 视频 显示 终端 (VDT) 和 打印 机 。 机 器 可 读 设备 如 磁盘 和 磁带 系统 ， 以 及 传 
感 器 和 动 臂 机 构 ， 如 机 器 人 中 动 臂 机 构 的 应 用 。 注 意 ,在 这 一 章 中 ， 我 们 将 磁盘 和 磁带 系统 视 为 
LI0 设备 ， 而 在 第 6 章 中 ,我们 把 它们 作为 存储 设备 来 看 待 。 从 功能 上 来 看 ， 它 们 是 存储 器 分 层 
结构 的 一 部 分 ， 其 用 途 已 在 第 6 章 中 讨论 过 。 而 从 结构 上 来 看 ， 它 们 由 VO 模块 控制 ， 详 细 内 容 
将 在 本 章 讨论 。 

通信 设备 允许 计算 机 与 远程 设备 交换 数据 ， 

该 远程 设备 可 以 是 人 可 读 的 设备 ， 如 终端 ， 也 可 | 来 日 /模块 
以 是 机 器 可 读 的 设备 ， 甚 至 可 以 是 另 一 台 计 算 机 。 

图 7-2 使 用 非常 通用 的 术语 表示 了 外 部 设备 
的 性 质 。LO 模块 的 接口 以 控制 、 状 态 和 数据 信 
号 的 形式 出 现 。 控 制 信号 (control signal) 决定 设 
备 将 要 执行 的 功能 。 例 如 ， 发送 数据 到 IO 模块 
(INPUT 或 READ 信号 ) ， 接 收 来 自 VO 模块 的 数 
据 (OUTPUT 或 WRITE 信号 ) ， 报 告状 态 或 对 特 
定 设备 进行 控制 ( 如 定位 磁头 )。 数 据 (data) 信 
息 是 以 一 组 位 的 形式 发 送 到 IO 模块 或 从 IO 模 
块 接收 。 状 态 信 号 (status signal) 表示 设备 的 状 
A, in READY/NOT-READY 表示 进行 数据 传送 的 
设备 是 否 就 绪 。 图 7-2 ”外 部 设备 框图 

与 设备 相关 的 控制 逻辑 (control logic) 控制 设备 的 操作 ， 以 响应 来 自 IZO 模块 的 命令 。 输 出 
时 ， 转 换 器 (transducer) 把 数据 从 电信 号 转换 成 其 他 的 能 量 形式 ; 输入 时 ， 转 换 器 把 其 他 信和 号 
形式 转换 成 电 人 信号。 通常， 缓冲 器 与 转换 器 有 关 ， 它 缓存 VO 模块 和 外 部 环境 之 间 传 送 的 数据 ， 
缓冲 器 的 大 小 一 般 为 8 位 或 16 位 。 

VO 模块 与 外 部 设备 之 间 的 接口 将 在 7.7 节 中 讨论 。 外 部 设备 和 外 部 环境 的 接口 超出 了 本 书 
范围 ， 这 里 只 给 出 几 个 简单 的 例子 。 


7.1.1 键盘 /监视 器 


计算 机 与 用 户 交互 最 常用 的 方式 是 键盘 /监视 器 装置 。 用 户 通 过 键盘 提供 输入 ， 此 输入 传送 
到 计算 机 内 或 在 监视 器 上 显示 。 另 外 ， 监 视 器 也 显示 由 计算 机 提供 的 数据 。 

信息 交换 的 基本 单位 是 字符 。 与 每 个 字符 相关 的 是 代码 ， 长 度 一 般 为 7 位 或 8 位 。 最 常用 的 
文本 代码 是 IRA 码 (International Reference Alphabet， 国 际 参考 字母 表 )2。 在 IRA 码 中 ， 每 个 字 
符 用 一 个 唯一 的 7 位 二 进 制 代码 表示 ， 一 共 可 以 表示 128 个 不 同 的 字符 。 字 符 分 为 可 打印 字符 和 
控制 字符 两 种 类 型 。 可 打印 字符 包括 字母 、 数 字 和 能 打印 在 纸 上 或 显示 在 屏幕 上 的 一 些 特殊 字 
符 。 一 些 控制 字符 能 控制 字符 的 打印 或 显示 ， 如 回 车 符 (CR); 另外 一 些 控 制 字 符 与 通信 过 程 相 
关 。 具 体内 容 参 看 附录 了 。 










送 至 IO 模 
块 的 状态 信号 


(设备 特有 的 ) 








© IRA 是 国际 电信 联盟 (ITU-T) T.50 建议 书 中 定义 的 ， 曾 被 称 为 国际 5 号 字母 表 (IAS). IRA 的 美国 版 被 称 为 美 
国标 准 信息 交换 码 (ASCII) 。 
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对 于 键盘 输入 ， 当 用 户 按 下 某 个 键 时 ， 键 盘 首 先 产生 电信 号 ， 再 由 键盘 中 的 转换 器 解释 并 转 
PEMA IRA 码 对 应 的 位 模式 ， 然 后 将 该 位 模式 传送 到 计算 机 的 1/0 模块 。 同 样 ， 在 计算 机 中 ， 文 
本 也 能 以 TRA 代码 来 存储 。 输 出 时 ，IRA 码 字符 从 VO 模块 传送 到 外 部 设备 。 设 备 中 的 转换 器 解 
释 这 种 代码 并 发 送 所 需要 的 电信 号 到 输出 设备 ， 再 由 输出 设备 来 显示 字符 或 执行 相应 的 控制 
功能 。 


7.1.2 ”磁盘 驱动 器 


磁盘 驱动 器 包含 两 部 分 的 电子 部 件 : 一 是 用 于 与 VO 模块 交换 数据 、 控 制 和 状态 信号 ， 二 是 
用 于 控制 磁盘 的 读 / 写 机 制 。 在 磁头 固定 的 磁盘 中 ， 转 换 器 能 够 在 运动 的 磁盘 表面 的 磁化 模式 和 
设备 缓冲 器 中 的 位 之 间 进 行 转换 (参见 图 72)。 而 在 可 移动 磁头 的 磁盘 中 ， 磁 臂 也 必须 能 迅速 
在 磁盘 表面 来 回 移 动 。 


7.2 1/O 模块 


7.2.1 模块 功能 

VO 模块 的 主要 功能 或 需求 分 为 控制 和 定时 、 处 理 器 通信 、 设 备 通 信 、 数 据 缓 冲 、 检 错 
几 种 。 

在 任何 一 段 时 间 内 ， 处 理 器 都 能 根据 程序 对 VO 的 要 求 ， 非 预期 地 与 一 个 或 几 个 外 设 进行 通 
fa. 一 些 内 部 资源 ， 如 主 存 和 系统 总 线 ， 必 须 被 包括 数据 YO 在 内 的 几 个 功能 操作 所 共享 。 因 
此 ，LO 模块 的 功能 包含 控制 和 定时 (control and timing) 的 需求 ， 以 协调 内 部 资源 和 外 部 设备 
之 间 的 信息 流动 。 例 如 ， 控 制 从 外 设 到 处 理 器 的 数据 传送 包括 以 下 几 个 步骤 : 

(1) 处 理 器 查询 VO 模块 ， 以 检验 所 连接 设备 的 状态 。 

(2) LO 模块 返回 设备 状态 。 

G) 如 果 设备 运转 正常 ， 并 准备 就 绪 ， 则 处 理 器 通过 向 VO 模块 发 出 一 条 命令 ， 请 求 数据 
传送 。 

(4) LO 模块 获得 来 自 外 设 的 一 个 数据 单元 (如 8 位 或 16 位 )。 

(5) 数据 从 IO 模块 传送 到 处 理 器 。 

如 果 系统 采用 总 线 ， 则 每 次 处 理 器 和 LO 模块 之 间 的 交互 作用 都 涉及 一 次 或 几 次 总 线 仲裁 。 

前 面 所 述 的 简化 方案 也 表明 ，LO 模块 必须 与 处 理 器 以 及 外 设 进行 通信 ， 处 理 器 通信 (pro- 
cessor communication) 包括 : 

© 命令 译 码 : IO 模块 接受 来 自 处 理 器 的 命令 ， 这 些 命令 一 般 作 为 信号 发 送 到 控制 总 线 。 

例如 ， 一 个 用 于 磁盘 驱动 器 的 VO 模块 ， 可 能 接受 READ SECTOR (AK), WRITE 
SECTOR (HX), SEEK ( 寻 道 ) 磁道 号 和 SCAN (扫描 ) 记录 标识 等 命令 。 后 两 条 命 
令 中 的 每 条 都 包含 一 个 发 送 到 数据 总 线 上 的 参数 。 

o 数据 : 数据 是 在 处 理 器 和 1O 模块 间 经 由 数据 总 线 来 交换 的 。 

。 状态 报告 : 由 于 外 设 速度 很 慢 ， 所 以 知道 VO 模块 的 状态 很 重要 。 例 如 ， 如 果 要 求 一 个 
LO 模块 发 送 数据 到 处 理 器 〈 读 操作 ) ， 而 该 VO 模块 仍 在 处 理 先前 的 VO 命令 而 对 此 请 
求 未 能 就 绪 ， 则 可 以 用 状态 信号 来 报告 这 个 事实 。 常 用 的 状态 信号 有 忙 (BUSY) 和 就 绪 
(READY) ， 还 有 报告 各 种 出 错 情况 的 信和 号 。 

e 地 址 识别 : 正如 存储 器 中 每 个 字 对 应 一 个 地 址 一 样 ， 每 个 0 设备 也 有 地 址 。 因 此 ，LO 

模块 必须 能 识别 它 所 控制 的 每 个 外 设 的 唯一 地 址 。 

为 一 方面 ，VO 模块 必须 能 进行 设备 通信 (device communication) ， 通 信 内 容 包 括 命令 、 状 
态 信息 和 数据 (如 图 7-2 所 示 ) 。 

LO 模块 的 一 个 基本 功能 是 数据 缓冲 (data buffering), H K 2-11 可 以 看 出 实现 这 一 功能 的 
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条 件 。 由 于 主 存 和 处 理 器 传人 、 传 出 数据 的 速度 很 快 ， 而 许多 外 设 速度 要 低 几 个 数量 级 并 且 范 围 
很 宽 ， 所 以 来 自主 存 的 数据 通常 以 高 速 发 送 到 IO 模块 ， 数 据 保 存在 VO 模块 的 缓冲 器 中 ， 然 后 
以 外 设 的 数据 传送 速度 发 送 到 该 外 设 。 而 反 向 传送 时 ， 由 于 数据 被 缓冲 ， 内 存 不 会 被 束缚 在 低速 
的 传送 操作 中 。 因 此 ，L0 模块 必须 既 能 以 设备 速度 又 能 以 存储 器 速度 传送 。 类 似 地 ， 如 果 外 设 
以 高 于 存储 器 存 取 速度 的 速度 操作 ， 则 IO 模块 也 要 完成 所 需 的 缓冲 操作 。 

最 后 ，LO 模块 通常 还 要 负责 检 错 (error detection) ， 并 将 差错 信息 报告 给 处 理 器 。 一 类 差 
错 是 设备 报告 的 机 械 和 电路 故障 (如 塞 纸 、 磁 道 坏 ) ; 另 一 类 差错 是 在 信息 从 设备 传送 到 IO 模 
块 时 ， 数 据 位 发 生 了 变化 。 对 于 传输 中 的 差错 ， 经 常用 一 些 校 验 码 进行 检测 。 一 个 简单 的 例子 是 
在 每 个 数据 字符 上 使 用 一 个 奇偶 校 验 位 。 例 如 ，IRA 字符 码 占 据 了 一 个 字 节 中 的 7 位 ， 而 第 8 位 
被 设置 为 奇偶 校 验 位 ， 以 便 该 字 节 中 “1” 的 个 数 为 偶数 〈 称 为 偶 校 验 ) 或 为 奇数 〈 称 为 奇 校 
验 ) 。 当 VO 模块 接收 一 个 字 节 时 ， 它 检查 奇偶 校 验 位 来 确定 是 否 有 差错 发 生 。 


7.2.2 ”IO 模块 结构 


VO 模块 在 复杂 性 和 控制 外 设 的 数目 上 变化 很 大 ， 这 里 只 给 出 大 概 的 描述 (一 种 专门 设备 ， 
Intel 82C55A， 将 在 7.4 节 讨论 ) ,图 7.3 给 出 了 1/O 模块 常用 的 框图 。1/O 模块 通过 一 组 信号 线 
(如 系统 总 线 ) 连接 到 计算 机 的 其 他 部 分 。 传 送 到 1/0 模块 或 从 VO 模块 传 出 的 数据 缓存 在 一 个 
或 几 个 数据 寄存 器 中 ， 同 时 也 有 一 个 或 几 个 状态 寄存 器 提供 当前 的 状态 信息 。 状 态 寄存 器 也 能 
用 做 控制 寄存 器 ， 接 收 来 自 处 理 器 的 具体 的 控制 信息 。 模 块 内 的 逻辑 通过 一 组 控制 线 与 处 理 器 
交互 ， 处 理 器 使 用 这 些 控制 线 给 VO 模块 发 送 命令 。 控 制 线 中 的 一 部 分 也 可 以 被 /O 模块 使 用 
(例如 ， 用 于 仲裁 和 传递 状态 信号 ) 。 模 块 还 必须 能 够 识别 和 产生 与 其 控制 的 设备 相关 的 地 址 ， 
AY VO 模块 有 一 个 唯一 的 地 址 ， 或 者 ， 如 果 它 控制 一 个 以 上 的 外 部 设备 ， 那 么 就 对 应 唯一 的 一 
组 地 址 。 最 后 ，O 模块 还 包含 与 其 控制 的 每 个 设备 进行 连接 的 特定 逻辑 。 

VO 模块 提供 的 多 种 功能 使 
处 理 器 能 以 简便 的 方式 管理 多 种 
设备 。 它 能 隐藏 外 设 的 定时 、 格 
式 、 机 电 结构 等 细节 ， 使 处 理 器 
能 借助 于 简单 的 读 和 写 命令 、 可 MR eae 
能 的 打开 和 关闭 文件 命令 对 外 设 ML 状态 /控制 寄存 器 “上 
进行 操作 。 在 最 简单 的 形式 中 ， Jee au) oe 
VO 模块 仍 可 以 将 许多 控制 设备 
的 任务 (如 反 绕 磁带 ) 留 给 处 理 
器 处 理 。 

担负 大 量 详细 的 处 理 任务 并 
为 处 理 器 提供 高 级 接口 的 1/0 模 
H, RA VO 通道 (1/0 channel) 
或 IO 处 理 器 。 一 种 相当 基础 并 需要 详细 控制 的 IO 模块 通常 称 为 IO 控制 器 或 设备 控制 器 。 
LO 控制 器 常用 于 微型 计算 机 ， 而 VO 通道 常用 于 大 型 计算 机 。 

下 文中 ， 当 不 混淆 结果 时 ， 将 使 用 普通 术语 ; /O 模块 。 如 果 需 要 ， 则 采用 更 特定 的 术语 。 


7.3 编程 式 |/O 


VO 操作 可 采用 三 种 技术 。 对 于 编程 式 IO (programmed I/0)， 数 据 在 处 理 器 和 1/O 模块 之 
间 交 换 ， 处 理 器 通过 执行 程序 来 直接 控制 IO 操作 ， 包 括 检测 设备 状态 、 发 送 读 或 写 命令 以 及 传 
送 数 据 。 当 处 理 器 发 送 一 条 命令 到 IO 模块 时 ， 它 必须 等 待 ， 直 到 IO 操作 完成 。 如 果 处 理 器 速 


系统 总 线 接 口 外 部 设备 接口 
mn mm 





图 7-3 IO 模块 框图 
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度 快 于 IO 模块 ， 那 么 处 理 器 的 时 间 就 白白 浪费 了 。 对 于 中 断 驱 动 式 IO (interrupt-driven 1/0) , 
处 理 器 发 送 一 条 YO 命令 后 ， 继 续 执行 其 他 指令 ; 并 且 当 IO 模块 完成 其 工作 时 ， 才 去 中 断 处 理 
器 工作 。 对 于 编程 式 IO 和 中 断 式 IO ， 都 是 由 处 理 器 来 负责 在 输出 时 从 主 存 提取 数据 ， 在 输入 
时 把 数据 存 人 主 存 。 另 外 一 种 技术 被 称 为 直接 存储 器 存 取 (direct memory access, DMA), 在 这 
种 模式 下 ，L/O 模块 与 主 存 直接 交换 数据 ， 而 不 需要 处 理 器 的 干涉 。 

表 7-1 列 出 了 这 三 种 技术 之 间 的 关系 。 本 节 将 探讨 编程 式 YO， 而 中 断 式 IO 和 DMA 将 在 接 
下 来 的 两 节 中 分 别 加 以 阐述 。 


表 7-1 MO 技术 






传递 方式 
VO 与 存储 器 之 间 的 传递 通过 处 理 器 实现 
VO 与 存储 器 直接 传送 


无 中 断 
编程 式 0 


使 用 中 断 
中 断 驱动 式 WO 
直接 存储 器 存 取 (DMA) 























7.3.1 编程 式 |/O 概述 

当 处 理 器 在 执行 程序 的 过 程 中 遇 到 了 一 条 与 VO 操作 有 关 的 指令 时 ， 它 通过 发 送 命令 到 适当 
的 VO 模块 来 执行 这 条 指令 。 对 于 编程 式 IO，LO 模块 将 执行 所 要 求 的 动作 ， 然 后 在 1/0 状态 
寄存 器 中 设置 适当 的 一 些 位 〈 如 图 7-3 所 示 )。LO 模块 不 采用 进一步 的 动作 来 通知 处 理 器 ， 特 
别 是 它 不 去 中 断 处 理 器 。 因 此 ， 处 理 器 就 需要 周期 性 地 检查 VO 模块 的 状态 ， 直 到 发 现 该 操作 
完成 。 

为 了 解释 编程 式 LO 技术 ， 我 们 首先 从 处 理 器 发 送 给 VO 模块 的 人 VO 命令 讨论 ， 然 后 再 讨论 
处 理 器 执行 的 O 指令 。 


7.3.2 VORS 


为 了 执行 与 VO 相关 的 指令 ， 处 理 器 发 送 一 个 指定 具体 VO 模块 和 外 设 的 地 址 ， 并 发 送 一 条 
VOMS. H VO 模块 被 处 理 器 寻 址 时 ， 它 可 能 会 接收 如 下 四 种 类 型 的 1/0 命令 : 

。 控制 命令 : 用 于 激活 外 设 并 告诉 它 要 做 什么 。 例 如 ， 可 以 指示 磁带 机 快 退 或 快 进 一 个 记 
录 。 这 些 命令 为 具体 外 设 类 型 而 定制 。 

。 测试 命令 : 用 于 测试 与 VO 模块 及 其 外 设 相关 的 各 种 状态 条 件 。 处 理 器 想 要 知道 ， 感 兴 
趣 的 外 设 电源 是 否 接 通 和 该 外 设 是 否 可 用 。 它 还 想 知道 ， 最 近 的 VO 操作 是 否 完成 ， 是 
否 发 生 差错 。 

。 读 命令 : 使 LO 模块 从 外 设 获 得 一 个 数据 项 ， 并 把 它 存 人 内 部 缓冲 区 (图 723 描述 一 个 
数据 寄存 器 ) 。 然 后 ， 处 理 器 可 以 通过 请 求 VO 模块 把 数据 传送 到 数据 总 线 以 获得 该 数 
据 项 。 

e 写 命令 : 使 VO 模块 从 数据 总 线 获 得 一 个 数据 项 ( 字 节 或 字 ) ， 然 后 把 它 传送 到 外 设 。 

图 7-4a 给 出 了 一 个 使 用 编程 式 VO 从 外 设 读 取 数据 (例如 磁带 上 的 一 个 记录 ) 到 内 存 的 例 

子 。 每 次 读 一 个 字 (如 16 位 ) 的 数据 。 对 于 每 个 读 人 的 字 ， 处 理 器 必须 停留 在 状态 监测 周期 ， 
直到 确定 这 个 字 在 VO 模块 的 数据 寄存 器 中 有 效 为 止 。 这 个 流程 图 突出 了 这 种 技术 的 主要 缺点 ， 
它 是 一 个 使 处 理 器 一 直 处 于 不 必要 的 忙碌 状态 的 耗 时 过 程 。 


7.3.3 ”1/O 指令 


对 于 编程 式 VO， 在 处 理 器 从 内 存 获 取 的 VO 指令 与 为 执行 此 指令 处 理 器 发 送 到 IO 模块 的 
VO 命令 之 间 存 在 着 紧密 的 对 应 关系 。 也 就 是 ， 该 指令 很 容易 被 映射 成 LO 命令 ， 并 且 二 者 之 间 
通常 是 简单 的 一 一 对 应 关系 。 指 令 的 形式 取决 于 外 设 寻 址 的 方式 。 





a) 编 程式 I/O 


b) 中 断 驱 动 式 IO 


第 7 章 输入 /输出 .145 





9) 直 接 存储 器 存 取 


图 7-4 数据 块 输入 的 三 种 技术 


通常 ， 有 多 个 VO 设备 通过 IO 模块 连接 到 系统 ， 每 个 设备 有 一 个 唯一 的 标识 符 或 地 址 。 当 
处 理 器 发 送 VO 命令 时 ， 该 命令 就 包括 所 需 设 备 的 地 址 。 因 此 ， 每 个 VO 模块 必须 对 地 址 线 译 


码 ， 确 定 命令 是 否 是 发 送 给 自己 的 。 


当 处 理 器 、 主 存 和 IO 共享 一 条 公共 总 路 时 ， 有 两 种 可 能 的 编 址 方式 : 存储 器 映射 式 


(memory-mapped) 和 分 离 式 (isolated ) 。 对 于 
存储 器 映射 式 MO ， 存 储 单元 和 LO 设备 有 单 
一 的 地 址 空间 。 处 理 器 将 VO 模块 的 状态 和 数 
据 寄存 器 看 成 存储 单元 一 样 对 待 ， 使 用 相同 的 
机 器 指令 来 访问 存储 器 和 LO 设备 。 例 如 ， 使 
用 10 根 地 址 线 ， 可 以 组 合成 总 数 为 2”= 1024 
个 存储 单元 和 IO 地 址 。 

存储 器 映射 式 VO 在 总 线 上 只 需要 单一 的 
读 线 和 单一 的 写 线 。 男 一 种 方式 是 ， 让 总 线 既 
有 存储 器 的 读 线 和 写 线 ， 同 时 也 有 输入 和 输出 
命令 线 。 此 时 ， 命 令 线 指定 该 地 址 是 说 明 存 储 
单元 还 是 说 明 LO 设备 的 。 整 个 地 址 范围 对 两 
者 都 适用 。 再 来 看 上 述 带 有 10 根 地 址 线 的 例 
子 ， 系 统 现在 不 仅 支 持 1024 个 存储 单元 ， 也 支 
持 1024 个 VO 地 址 。 因 为 YO 的 地 址 空间 与 存 
储 器 的 地 址 空间 是 分 离 的 ， 因 此 这 被 称 为 分 离 
xt I/O, 

图 7-5 对 比 了 这 两 种 编程 式 IO 技术 。 图 
7-5a 表示 键盘 终端 之 类 的 简单 输入 设备 怎样 采 










| 键盘 输入 数据 寄存 器 


To “| 键盘 输入 状态 与 控制 寄存 器 
IRA 
0 忙 











设 为 1 开始 读 
地 址 指令 操作 数 解释 
200 Load AC as 装 入 累加 器 
Store AC 517 启动 键盘 读 
202 Load AC 517 取 状 态 字 节 
Branch if Sign=0 202 循环 直至 就 绪 





Load AC 516 装 入 数据 字 节 





a) 存储 器 映射 式 JO 








地 址 指令 操作 数 解释 
200 Start 1/0 5 启动 键盘 读 
201 Test IO 5 检测 是 否 完成 
Branch Not Ready 201 循环 直至 完成 
In 5 装 入 数据 字 节 
b) 分 离 式 LO 


图 7-5 存储 器 映射 式 LO 和 分 离 式 /O 
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用 存储 器 映射 VO 方式 来 编程 。 假 设 一 个 10 位 的 地 址 ， 有 512 个 存储 单元 (单元 0 ~511)，, 最 
多 有 512 个 IO 地 址 (单元 512 ~ 1023 ) ， 两 个 地 址 专用 于 从 特定 终端 连 到 键盘 输入 ， 地 址 516 代 
表 数 据 寄存 器 ， 地 址 517 代表 状态 寄存 器 ， 状 态 寄 存 器 也 可 用 做 控制 寄存 器 来 接收 处 理 器 的 命 
令 。 图 中 的 程序 表示 从 键盘 读 人 一 个 字 节 的 数据 传送 到 处 理 器 的 累加 寄存 器 中 的 过 程 。 注 意 ， 处 
理 器 一 直 循环 检测 到 数据 字 节 有 效 为 止 。 

对 于 分 离 式 WO (如 图 7-5b Sta), YO 端口 上 只 有 被 特定 的 YO 命令 访问 ， 这 种 命令 能 激活 
BREN VO 命令 线 。 

对 于 大 部 分 类 型 的 处 理 器 ， 有 相对 多 的 一 组 不 同 指令 用 于 访问 存储 器 。 而 如 果 采 用 分 离 式 
IO， 则 只 有 少数 几 种 WO 指令 。 因 此 ， 存 储 器 映射 式 VO 的 优点 是 能 使 用 大 的 指令 系统 ， 这 样 
可 进行 更 有 效 的 编程 ;其 缺点 是 占用 了 宝贵 的 内 存 地 址 空间 。 存 储 器 映射 式 VO 和 分 离 式 O 都 
很 常用 。 


7.4 中 断 驱动 式 /O 

编程 式 VO 存在 的 问题 是 ， 处 理 器 必须 为 O 模块 准备 接收 或 传送 数据 等 待 很 长 一 段 时 间 。 
在 等 待 的 过 程 中 ， 处 理 器 必须 不 断 地 询问 O 模块 的 状态 ， 因 此 使 整个 系统 性 能 严重 下 降 。 

另外 一 种 方法 是 ， 处 理 器 发 送 一 个 VO 命令 到 模块 ， 然 后 去 处 理 其 他 有 用 的 工作 。 当 IO 模 
块 准备 和 处 理 器 交换 数据 时 ， 它 中 断 处 理 器 以 请 求 服 务 。 然 后 ， 处 理 器 执行 数据 传送 ， 最 后 恢复 
它 原先 的 处 理工 作 。 

让 我 们 来 考虑 这 是 如 何 工作 的 。 首 先 从 NVO 模块 的 角度 来 看 ， 对 于 输入 ，L 0 模块 接收 来 自 
处 理 器 的 READ 命令 ， 然 后 从 相关 的 外 设 中 读 和 数据。 一 旦 数据 进入 VO 模块 的 数据 寄存 器 后 ， 
该 模块 通过 控制 总 线 给 处 理 器 发 送 中 断 信 号 ， 然 后 等 待 ， 直 到 处 理 器 请 求 该 数据 时 为 止 。 当 处 理 
器 有 数据 请 求 时 ，LO 模块 把 数据 送 到 数据 总 线 上 ， 并 准备 另 一 个 VO 操作 。 

从 处 理 器 的 角度 来 看 ， 输 入 的 行为 如 下 。 首 先 ， 处 理 器 发 送 一 个 READ 命令 ， 然 后 它 离开 去 
处 理 其 他 的 事情 〈( 例 如， 处 理 器 可 以 同时 处 理 几 个 不 同 的 程序 ) 。 在 每 个 指令 周期 结束 时 ， 处 理 
器 检查 中 断 〈 如 图 3-9 所 示 ) 。 当 来 自 YO 模块 的 中 断 出 现时 ， 处 理 器 保存 当前 程序 的 现场 〈 例 
如 ， 程 序 计 数 器 和 处 理 器 寄存 器 ) ， 并 处 理 该 中 断 。 此 时 ， 处 理 器 从 VO 模块 读 取 数据 字 并 保存 
到 主 存 中 。 然 后 恢复 刚才 正在 运行 的 程序 〈 或 其 他 程序 ) 的 现场 ， 并 继续 运行 原来 的 程序 。 

图 7-4b 表示 了 使 用 中 断 式 VO 读 取 一 个 数据 块 的 情形 。 与 图 7-4a HE, FE IO 比 编程 
式 Y0 效率 高 ， 因 为 它 消除 了 空闲 的 等 待 。 然 而 ， 中 断 式 VO 仍然 要 耗费 处 理 器 很 多 的 时 间 ， 因 
为 从 存储 器 到 IO 模块 或 从 O 模块 到 存储 器 的 每 个 数据 字 都 必须 经 过 处 理 器 传送 。 


7.4.1 中 断 处 理 


让 我 们 更 详细 地 考虑 中 断 式 WO 时 处 理 器 的 作用 。 中 断 的 出 现 会 触发 一 系列 处 理 器 软 硬 件 中 
的 事件 ， 图 7-6 给 出 了 一 个 典型 的 序列 。 当 IO 设备 完成 一 次 VO 操作 时 ， 下 列 硬件 事件 序列 会 
发 生 : 

(1) 设备 给 处 理 器 发 送 一 个 中 断 信和 号。 

(2) 处 理 器 在 响应 该 中 断 之 前 完成 当前 指令 的 执行 ， 如 图 3-9 所 示 。 

(3) 处 理 器 检测 中 断 ， 确 定 中 断 源 ， 并 发 送 一 个 确认 信号 给 发 送 中 断 的 设备 ， 人 允许 设备 取 
消 中 断 信和 号。 

(4) 处 理 器 需要 准备 传送 控制 给 中 断 例 程 。 首 先 ， 它 需要 保存 将 来 在 中 断 点 恢复 当前 程序 
所 需要 的 信息 。 所 需要 的 最 小 信息 是 : (a) 处 理 器 状态 ， 它 包含 在 一 个 被 称 为 程序 状态 字 
(PSW) 的 寄存 器 中 ; (b) 下 一 条 将 被 执行 的 指令 的 位 置 ， 它 包含 在 程序 计数 器 中 。 这 些 信息 都 


可 以 压 人 系统 控制 栈 中 保存 。 

(5) 处 理 器 将 响应 该 中 断 的 中 断 处 理 程 
序 的 入 口 地 址 装 入 程序 计数 器 。 中 断 处 理 程序 
的 个 数 取 决 于 计算 机 的 体系 结构 和 操作 系统 的 
设计 ， 可 能 是 单一 一 个 程序 ， 也 可 能 是 每 个 中 
断 类 型 对 应 一 个 程序 ， 或 者 每 个 设备 和 每 个 中 
断 类 型 对 应 一 个 程序 。 如 果 有 一 个 以 上 的 中 断 
处 理 程序 ， 处 理 器 必须 确定 调用 哪个 程序 。 而 
这 一 信息 可 能 已 经 包含 在 原先 的 中 断 请 求 信号 
中 ,或 者 处 理 器 发 送 一 个 请 求 到 提出 中 断 的 设 
备 ， 以 得 到 包含 所 需 信息 的 响应 。 

一 旦 程序 计数 器 装 入 后 ， 人 处 理 器 进入 下 一 
个 指令 周期 ,开始 取 指 阶段 ， 因 为 取 指 令 由 程 
序 计数 器 中 的 内 容 决 定 ， 结 果 是 控制 权 转 移 到 
了 中 断 处 理 程序 。 中 断 处 理 程序 的 执行 包含 下 
列 几 步 操作 : 

(6) 此 时 ,被 中 断 程序 的 程序 计数 器 和 
PSW 已 存 人 系统 堆栈 。 然 而 ， 还 有 一 些 执行 程 
序 状态 的 其 他 信息 要 考虑 ， 特 别 是 ， 处 理 器 中 
寄存 器 的 内 容 也 需要 保存 ， 因 为 这 些 寄存 器 可 
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硬件 软件 
rA prs 
设备 控制 器 或 其 他 | 


系统 硬件 发 出 中 断 | 


ns 


| 


SES 








保存 其 余 的 处 理 器 | 
状态 信息 





图 7-6 简单 中 断 处理 


能 被 中 断 处 理 程序 使 用 。 因 此 ， 所 有 这 些 值 ， 以 及 任何 其 他 状态 信息 ， 都 需要 保存 。 通 常 ， 中 断 
处 理 程序 将 从 保存 所 有 寄存 器 的 内 容 入 栈 开始 。 图 7-7a 给 出 了 一 个 简单 的 例子 。 此 例 中 ， 用 户 
程序 在 位 置 N 的 指令 后 被 中 断 ， 所 有 寄存 器 内 容 和 下 一 条 指令 地 址 (N+1) ERER HER 
针 指 向 新 的 栈 项 ， 程 序 计数 器 被 更 新 为 指向 中 断 服务 程序 的 和 人口 地 址 。 





a) 中 断 出 现在 位 置 N 的 指令 后 
图 7-7 ”中断 时 存储 器 和 寄存 器 的 变化 


O 参见 附录 10A 中 关于 堆栈 操作 的 讨论 。 


> 


a RIL 


= 
i 





主 存 


b) 中 断 返 回 
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(7) 中 断 处 理 程序 接 下 来 处 理 中 断 ， 包 括 检查 VO 操作 或 引起 中 断 的 其 他 事件 的 状态 信息 ， 
可 能 还 包括 发 送 附 加 命令 或 确认 信息 给 O 设备 。 

(8) 当中 断 处理 完 成 时 ， 被 保存 的 寄存 器 值 出 栈 并 恢复 到 原 寄 存 器 中 〈 如 图 7-7b 所 示 ) o 

(9) 最 后 的 工作 是 出 栈 恢复 PWS 和 程序 计数 器 的 值 。 于 是 ， 将 要 执行 的 下 一 条 指令 来 自 于 
被 中 断 的 原 程序 。 

注意 ， 保 存 所 有 被 中 断 原 程序 的 有 关 状 态 信 息 对 后 面 的 恢复 工作 很 重要 ， 这 是 因为 中 断 不 
是 原 程序 所 调用 的 例 程 ， 中 断 在 用 户 程 序 执行 的 任何 时 刻 和 任何 位 置 都 可 能 发 生 ， 它 的 出 现 无 
法 预定 。 甚 至 ， 如 在 下 一 章 我 们 将 看 到 的 一 样 ， 这 两 个 程序 可 能 完全 不 同 ， 甚 至 可 能 属于 两 个 不 
同 的 用 户 。 


7.4.2 ”设计 问题 


实现 中 断 VO 操作 会 出 现 两 个 设计 问题 。 第 一 ， 因 为 几乎 总 是 有 多 个 VO 模块 ， 所 以 处 理 器 
如 何 确定 是 哪个 设备 发 生 了 中 断 ? 第 二 ， 如 果 有 多 个 中 断 出 现 ， 处 理 器 如 何 确定 优先 处 理 哪 个 
PT? 

首先 ， 我 们 来 考虑 设备 识别 ， 设 备 识 别 通常 有 多 条 中 断 线 、 软 件 轮 询 、 菊 花 链 〈 硬 件 轮 询 ， 
向 量 ) 、 总 线 仲裁 (向量 ) 4 种 技术 。 

解决 问题 最 直接 的 方法 是 在 处 理 器 和 IO 模块 之 间 提 供 多 条 中 断 线 ( multiple interrupt line) 。 
然而 ， 将 较 多 的 总 线 或 处 理 器 引 脚 用 做 中 断 线 是 不 实际 的 ， 因 此 ， 即 使 有 多 条 中 断 线 可 用 ， 每 条 
线 也 必须 连接 多 个 模块 。 在 每 根 线 上 还 要 采用 其 他 3 种 技术 中 的 一 种 。 

另 一 种 技术 是 软件 轮 询 (software poll) ， 当 处 理 器 检测 到 一 个 中 断 时 ， 进 入 中 断 服 务 程序 ， 
这 个 程序 的 任务 是 轮 询 每 一 个 VO 模块 来 确定 是 哪个 模块 产生 的 中 断 。 轮 询 可 以 采用 单独 的 命令 
线形 式 (如 TEST LO) 。 这 时 ， 处 理 器 启动 TEST LO 命令 线 ， 并 将 该 VO 模块 的 地 址 送 到 地 址 
线 上 。 如 果 是 该 WO 模块 发 出 的 中 断 ， 则 它 肯 定 会 响应 以 得 到 相应 的 响应 。 另 一 种 方法 是 每 个 
IO 模块 包含 一 个 可 寻 址 的 状态 寄存 器 ， 处 理 器 通过 从 每 个 IO 模块 的 状态 寄存 器 中 读 取 信息 来 
识别 中 断 模块 。 一 旦 识别 正确 的 模块 ， 处 理 器 就 转向 该 设备 的 设备 服务 例 程 。 

软件 轮 询 的 缺点 是 费时 。 相 比 之 下 ， 更 为 有 效 的 方法 是 使 用 菊花 链 (daisy chain) 电路 ， 实 
际 上 ， 它 提供 一 种 硬件 轮 询 。 图 3-26 给 出 了 一 个 菊花 链 配置 的 例子 。 对 于 中 断 ， 所 有 的 VO 模 
块 共享 一 条 中 断 请 求 线 ， 中 断 应 答 线 采 用 菊花 链 穿 过 这 些 中 断 模块 。 当 处 理 器 检测 到 有 中 断 请 
求 产 生 ， 就 发 出 一 个 应 答 信 号 ， 此 信号 穿 过 一 系列 IO 模块 直到 请 求 中 断 的 模块 。 而 请 求 中 断 的 
模块 通常 通过 放置 一 个 字 在 数据 线 上 来 响应 此 应 答 信 号 。 这 个 字 被 称 为 向 量 ， 它 或 者 是 IO 模块 
的 地 址 ， 或 者 是 识别 此 设备 的 唯一 标识 符 。 在 任 一 种 情况 ， 处 理 器 用 这 个 向 量 作为 指针 指向 相应 
的 设备 服务 程序 ， 这 避免 了 首先 执行 一 个 常规 的 中 断 服务 程序 的 需要 。 这 种 技术 称 为 向 量 式 中 
ft (vectored interrupt) o 

另 一 种 使 用 向 量 式 中 断 的 技术 是 总 线 仲 裁 (bus arbitration ) 。 使 用 总 线 仲裁 技术 ，L/O 模块 
在 发 出 中 断 请 求 前 必须 首先 获得 总 线 控制 权 ， 因 此 ， 一 次 只 有 一 个 模块 能 占用 总 线 。 当 处 理 器 检 
测 到 有 中 断 请 求 时 ， 它 发 中 断 应 答 信 号 响应 中 断 。 然 后 ， 请 求 中 断 的 模块 将 其 向 量 放 在 数据 
线 上 。 

以 上 技术 用 于 识别 VO 中 断 请 求 模块 。 当 一 个 以 上 的 设备 请 求 中 断 服务 时 ， 这 些 技术 还 提供 
一 种 分 配 优先 级 的 方法 。 对 于 多 条 中 断 线 的 方式 ， 处 理 器 仅仅 挑选 具有 最 高 优先 级 的 中 断 线 。 对 
于 软件 轮 询 方式 ， 模 块 的 轮 询 次 序 就 决定 了 模块 的 优先 级 。 类 似 地 ， 菊 花 链 上 的 模块 次 序 也 决定 
了 模块 的 优先 级 。 最 后 ， 总 线 仲裁 可 以 采用 优先 级 方案 ， 这 已 在 3.4 节 中 讨论 过 。 

现在 我 们 来 看 两 个 中 断 结构 的 例子 。 
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7.4.3 Intel 82C59A 中 断 控制 器 


Intel 80386 提供 了 单一 的 中 断 请 求 (INTR) 线 和 单一 的 中 断 应 答 CINTA) 线 。 为 了 使 
80386 灵活 地 处 理 各 种 设备 和 优先 级 结构 ， 它 通常 配 有 外 部 的 中 断 控 制 器 一 一 82C59A。 外 设 连 接 
到 82C59A, 82C59A 再 连接 到 80386, 

图 7-8 显示 了 采用 82059A 连接 多 个 VO 模块 到 80386 的 情形 。 一 个 82C59A 最 多 能 处 理 8 个 
LO 模块 ， 如 果 需 要 控制 8 个 以 上 的 模块 ， 则 使 用 级 连 方式 ， 最 多 能 处 理 64 个 模块 。 


从 82C59A 
中 断 控制 器 






LL 





从 82C59A 
中 断 控制 器 


主 82C59A 


中 断 控制 器 80386 处 理 器 


图 7-8 82C59A 中 断 控制 器 的 使 用 


82C59A 的 唯一 职责 是 管理 中 断 。 它 从 连接 的 模块 中 接收 中 断 请 求 ， 并 确定 哪个 中 断 的 优先 
级 最 高 ， 然 后 通过 INTR 线 发 出 请 求 信号 给 处 理 器 。 处 理 器 通过 INTA 线 应 答 。 这 就 提示 82C59A 
将 对 应 的 向 量 信息 放 到 数据 总 线 上 。 然 后 ， 处 理 器 可 以 开始 处 理 中 断 ， 并 直接 与 VO 模块 进行 通 
信 ， 读 或 写 数据 。 

82C59A 是 可 编程 的 ，80386 通过 设置 82C59A 中 的 控制 字 来 决定 其 优先 级 方式 。 下 面 是 可 用 
的 中 断 模式 : 

。 SRE: 中 断 请 求 按 优先 级 从 0 (IR0) 到 7 (IR7) 排序 。 

。 轮转 : 在 有 些 应 用 中 ， 多 个 中 断 设 备 具 有 相同 的 优先 级 ， 这 时 ， 刚 获得 服务 的 设备 在 本 

组 中 具有 最 低 的 优先 级 。 


150 … 第 二 部 分 计算 机 系统 


© 特殊 屏蔽 : 它 允 许 处 理 器 有 选择 地 禁止 来 自 某 些 设备 的 中 断 。 


7.4.4 Intel 82C55A 可 编程 外 部 接口 


作为 一 个 用 于 编程 式 VO 和 中 断 驱动 式 VO 的 VO 模块 的 例子 ， 我们 考虑 Intel 82C55A 可 编 
程 外 部 接口 。82C55A 是 一 种 单 芯片 的 通用 O 模块 ， 与 Intel 80386 处 理 器 一 起 使 用 。 图 7-9 表 
示 了 一 个 通用 的 框图 和 其 40 个 引 脚 封装 的 引 脚 分 配 。 
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a) 框 图 b) 引 脚 布局 
图 7-9 Intel 82C55A 可 编程 外 部 接口 





该 框图 的 右边 是 82C55A 的 外 部 接口 。24 条 IO 线 由 80386 利用 控制 寄存 器 编程 ，80386 能 
通过 设置 控制 寄存 器 的 值 来 指定 各 种 操作 方式 和 配置 。24 根 线 划 分 成 3 个 8 位 组 (A, B, C), 
每 个 组 可 以 作为 一 个 8 位 的 IO 端口 。 另 外 , 组 C 又 细 分 成 两 个 4 位 的 组 (C, 和 Ce) ， 它 们 可 
以 与 A 和 B 的 IO 端口 合并 使 用 。 以 这 种 方式 配置 时 ， 组 C 的 线 可 以 传送 控制 信号 和 状态 信号 。 

该 框图 的 左边 是 与 80386 总 线 的 内 部 接口 ， 它 包括 一 个 8 位 的 双向 的 数据 总 线 (D0 ~ D7), 
用 于 与 VO 端口 进行 数据 传输 ， 和 传送 控制 信息 到 控制 寄存 器 。 两 根 地 址 线 指定 3 个 1/0 端口 中 
的 一 个 或 者 是 控制 寄存 器 。 当 芯片 选择 (CS) 信号 和 READ 或 WRITE 信号 有 效 时 ， 可 以 进行 数 
据 传 输 。RESET 信号 用 于 初始 化 82C55A 芯片 。 

由 处 理 器 装载 的 控制 寄存 器 用 来 控制 操作 模式 和 定义 信号 。 以 模式 0 操作 时 ,，3 组 8 位 的 外 
部 线 作 为 3 个 8 位 的 IO 端口 ， 每 个 端口 能 指定 作为 输入 或 输出 。 否 则 , 组 A 和 组 B 作为 WO 端 
口 ， 而 组 C 的 线 作 为 A 和 B 的 控制 线 。 控 制 信 号 有 两 个 主要 目的 : 握手 和 中 断 请 求 。 握 手 是 一 
种 简单 的 时 序 机 制 。 一 条 控制 线 由 发 送 器 作为 “数据 就 绪 ”(DATA READY) 线 使 用 ， 指 示 数 据 
已 传 到 IO 数据 线 上 。 另 一 条 线 由 接收 器 用 于 “应 答 ”( ACKNOWLEDGE)， 指 示 数 据 已 经 读 取 ， 
数据 线 可 以 清除 。 另 一 条 线 可 以 指定 为 “中 断 请 求 ” (INTERRUPT REQUEST) 线 ， 并 连接 到 系 
统 总 线 。 

因为 82C55A 可 以 通过 控制 寄存 器 进行 编程 ， 所 以 它 能 够 用 于 控制 各 种 简单 的 外 设 。 图 7-10 
说 明了 它 用 于 控制 键盘 /显示 器 终端 。 该 键盘 提供 8 位 的 输入 ， 这 些 位 中 的 两 位 ，SHIFT 和 CON- 
TROL， 对 处 理 器 执行 的 键盘 处 理 程序 有 具体 的 含义 。 然 而 ， 这 个 含义 对 82055A 是 透明 的 ， 
82C55A 只 是 简单 地 接收 8 位 数据 ， 并 将 它们 送 到 系统 的 数据 线 上 。 两 根 握手 控制 引 脚 线 提供 给 
键盘 使 用 。 

显示 器 也 连 到 8 位 数据 端口 ， 且 其 中 两 位 有 特殊 含义 ， 它 们 对 82C55A 也 是 透明 的 。 除 两 个 
握手 信和 号 线 外 ， 另 外 两 根 线 提供 附加 的 控制 功能 。 
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图 7-10 键盘 /显示 器 与 82C55A 的 接口 


7.5 直接 存储 器 存 取 


7.5.1 编程 式 /VO 和 中 断 驱动 式 I/O 的 缺点 

尽管 中 断 驱 动 式 VO 比 简 单 的 编程 式 WO 有 效 ， 但 它 仍 需要 处 理 器 及 时 干预 才能 在 存储 器 与 
VO 模块 之 间 进 行 数据 传送 ， 并 且 任 何 数据 传送 都 必须 穿 过 经 处 理 器 的 通路 。 因 此 ， 这 两 种 O 
方式 均 存 在 以 下 两 点 不 足 : 

(1) W/O 传送 速度 受 处 理 器 测试 和 服务 设备 速度 的 限制 。 

(2) 处 理 器 负责 管理 Y0 传送 ， 对 于 每 一 次 的 VO 传送 ， 处 理 器 必须 执行 很 多 指令 ( 如 图 
7-5 所 示 ) o 

在 这 两 点 不 足 之 间 存 在 着 一 些 平衡 。 考 虑 一 个 数据 块 的 传送 ， 当 采用 简单 的 编程 式 WO 时 ， 
处 理 器 专门 用 来 处 理 O 任务 ， 并 以 相当 快 的 速度 传送 数据 ， 其 代价 是 处 理 器 不 做 其 他 事情 。 而 
采用 中 断 式 VO 时 ， 处 理 器 在 某 种 程度 上 减少 了 干预 活动 ， 但 VO 传输 率 却 降低 了 。 不 管 怎样 ， 
这 两 种 方式 给 处 理 器 的 利用 率 和 LO 的 传输 率 都 带 来 了 不 利 的 影响 。 

当 需 要 传送 大 量 的 数据 时 ， 必 须 采 用 一 种 更 加 有 效 的 技术 : 直接 存储 器 存 取 (DMA) 。 


7.5.2 DMA 功能 


DMA 在 系统 总 线 上 增加 了 一 个 模块 ， 该 DMA 模块 (如 图 7-11 Bros) 能 够 模仿 处 理 器 ， 并 
且 确 实 从 处 理 器 那里 接管 了 系统 控制 的 工作 。 它 需要 通过 控制 系统 总 线 来 管理 从 存储 器 输出 或 
输入 存储 器 的 数据 。 为 此 ，DMA 模块 必须 只 在 处 理 器 不 需要 总 线 时 占用 系统 总 线 ， 或 者 必须 强 
制 处 理 器 暂时 挂 起 。 后 一 种 技术 更 加 通用 ， 并 称 为 周期 窃取 (cycle-stealing) ， 即 DMA 模块 有 效 
地 窃取 一 个 总 线 周期 。 
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当 处 理 器 希望 读 或 写 数据 时 ， 它 发 送 一 个 命令 给 DMA 模块 ， 向 DMA 模块 发 送 如 下 信息 : 

。 通过 使 用 处 理 器 与 DMA 模块 之 间 的 读 或 写 控制 线 ， 说 明 需 要 的 是 读 还 是 写 操作 。 

e 相应 的 IO 设备 地 址 ， 经 数据 线 传输 。 

e 读 或 写 操作 的 存储 器 起 始 单元 地 址 ， 经 数据 线 传输 ， 并 被 DMA 模块 存 人 其 地 址 寄存 

器 中 。 

© 读 或 写 操作 的 字数 ， 经 数据 线 传输 ， 并 被 DMA 模块 存 人 其 数据 计数 寄存 器 中 。 

然后 ， 处 理 器 继续 执行 其 他 工作 ， 它 已 将 该 WO 操作 
委派 给 DMA 模块 。 而 DMA 模块 负责 传送 全 部 的 数据 块 ， 
每 次 一 个 字 ， 直 接 将 数据 传送 到 存储 器 或 从 存储 器 中 读 
出 ， 不 经 过 处 理 器 。 当 该 数据 传送 完成 时 ，DMA 模块 给 
处 理 器 发 送 一 个 中 断 信号 。 因 此 ， 处 理 器 只 在 数据 传送 
的 开始 和 结束 时 参与 (如 图 7-4c ras) 。 

图 7-12 显示 了 在 指令 周期 的 哪个 位 置 处 理 器 可 以 挂 
起 。 每 次 ， 仅 仅 在 它 需 要 使 用 总 线 之 前 挂 起 处 理 器 。 然 
后 DMA 模块 传送 一 个 字 ， 并 把 控制 权 交还 给 处 理 器 。 注 
意 ， 这 不 是 中 断 ， 处 理 器 不 保存 现场 ， 也 不 做 其 他 事情 ， 
而 是 等 待 一 个 总 线 周 期 。 总 的 效果 是 使 处 理 器 的 执行 速 
度 下 降 ， 但 是 对 于 多 字 节 LO 传送 来 说 ，DMA 比 中 断 驱 
动 式 VO 和 编程 式 IO 有 效 得 多 。 

DMA 的 配置 机 制 有 多 种 方式 ， 几 种 可 能 的 配置 如 图 图 7-11 典型 的 DMA 框图 
7-13 所 示 。 在 第 一 个 例子 中 ， 所 有 的 模块 共享 系统 总 线 。DMA 模块 作为 处 理 器 的 代理 ,采用 编 
程式 WO， 在 存储 器 与 VO 模块 之 间 通 过 DMA 模块 交换 数据 。 虽 然 这 种 配置 价格 便宜 ， 但 其 效 
率 很 低 。 如 同 处 理 器 控制 的 编程 式 IO， 每 传送 一 个 字 要 消耗 两 个 总 线 周 期 。 

时 间 
“指令 周期 ” 








处 理 器 周期 | 处 理 器 周期 | 处 理 器 周期 | 处 理 器 周期 | 处 理 器 周期 | 处 理 器 周期 





DMA 断 点 中 断 断 点 


图 7-12 指令 周期 中 的 DMA 和 中 断 断 点 


通过 集成 DMA 和 LO 的 功能 ， 可 以 减少 所 需要 的 总 线 周 期 数 。 如 图 7-13b 所 示 ，DMA 模块 
与 一 个 或 多 个 VO 模块 之 间 有 一 条 路 径 (不 包括 系统 总 线 ) 。DMA 逻辑 实际 上 可 能 是 WO 模块 的 
一 部 分 ， 也 可 能 是 控制 一 个 或 几 个 IO 模块 的 独立 模块 。 这 个 概念 可 以 进一步 扩充 为 通过 一 条 LA 
0 总 线 将 IO 模块 连 到 DMA 模块 ， 如 图 7-13e 所 示 。 这 样 可 以 减少 DMA 模块 连接 的 IO HOR, 
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b) 单 总 线 集合 的 DMA-IO 
系统 总 线 





cWORR 
图 7-13 可 能 的 DMA 配置 


并 使 系统 容易 扩展 。 在 后 两 种 情况 中 (图 7-3b 和 图 7-3c) DMA 模块 和 处 理 器 、 存 储 器 共享 的 
系统 总 线 只 在 与 存储 器 交换 数据 时 才 由 DMA 模块 使 用 ，DMA 与 VO 模块 之 间 的 数据 交换 不 在 系 
统 总 线 上 进行 。 


7.5.3 Intel 8237A DMA 控制 器 


Intel 8237A DMA 控制 器 是 80x86 系列 处 理 器 和 DRAM 存储 器 之 间 的 接口 ， 用 以 提供 DMA 能 
力 。 图 7-14 指出 了 DMA 模块 所 处 的 位 置 。 当 DMA 模块 需要 使 用 系统 总 线 (数据 、 地 址 或 控制 
总 线 ) 来 传送 数据 时 ， 它 发 出 HOLD (保持 请 求 ) 信号 给 处 理 器 。 处 理 器 发 出 HLDA (保持 确 
A) 信和 号 来 响应 ， 告 诉 DMA 模块 能 使 用 系统 总 线 了 。 例 如 ， 若 该 DMA 模块 要 将 一 块 数据 由 存 
储 器 传送 到 磁盘 ， 则 要 做 如 下 工作 : 

(1) 外 围 设备 (如 磁盘 控制 器 ) itt DREQ (DMA WR) 信号 为 高 电 平 来 请 求 DMA 服务 。 

(2) DMA 模块 置 HRQ (保持 请 求 ) 为 高 电 平 ， 通过 CPU 的 HOLD 引 脚 通知 CPU 它 需 要 使 


CPU 





控制 总 线 COR, IOW, MEMR, MEMW) 
DACK=DMA acknowledge (DMA 确 认 ) 
DREQ=DMA request (DMA 请 求 ) 
HLDA=HOLD acknowledge (保持 确认 ) 
HRQ=HOLD request (保持 请 求 ) 


图 7-14 8237 DMA 的 系统 总 线 使 用 
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用 总 线 。 

(3) CPU 完成 当前 的 总 线 周 期 (不 必 是 当前 的 指令 周期 ) 后 ， 置 HLDA (保持 确认 ) 有 效 
响应 DMA 请 求 ， 告 诉 8237DMA 现在 可 以 使 用 总 线 执行 其 任务 。DMA 在 执行 其 任务 期 间 ，HOLD 
言 号 必须 保持 有 效 。 

(4) DMA 模块 启动 DACK (DMA 认可 信号 ) ， 告 诉 外 设 它 将 开始 传送 数据 。 

(5) DMA 模块 开始 将 数据 从 存储 器 传送 到 外 围 设 备 。 它 将 数据 块 的 首 字 节 地 址 放 到 地 址 总 
线 上 ， 并 启动 MEMR 信号 ， 从 而 读 取 存 储 器 的 字 节 数据 放 到 数据 总 线 上 。 然 后 ， 启 动 IOW 操作 ， 
将 数据 写 人 外 设 。 之 后 ，DMA 模块 的 字 节 计数 器 减 1 而 地 址 指针 加 1，DMA 重复 上 述 传送 过 程 
直到 计数 器 减 为 0， 任 务 结束 。 

(6) DMA 模块 结束 它 的 任务 后 ，HRQ 失效 ,通知 CPU 可 以 重新 获得 对 总 线 的 控制 。 

当 DMA 模块 占用 总 线 传送 数据 时 ， 处 理 器 是 空闲 的 。 类 似 地 ， 当 CPU 占用 总 线 时 ，DMA 
模块 是 空闲 的 。8237 DMA 被 称 为 飞越 式 (fly-by) DMA 控制 器 。 这 表示 数据 从 一 个 主 存单 元 传 
输 到 另 一 个 主 存单 元 时 不 需要 经 由 DMA 芯片 ， 也 不 需要 将 数据 存储 到 DMA 芯片 中 。 因 此 ， 
DMA 只 能 在 O 端口 与 存储 器 之 间 传 送 数 据 ， 而 不 能 在 两 个 VO 端口 之 间或 两 个 存储 器 地 址 之 
间 传 送 数据 。 然 而 ， 如 下 所 述 ，DMA 芯片 能 通过 寄存 器 实现 存储 器 到 存储 器 的 数据 传送 。 

8237 包含 4 个 可 独立 编程 的 DMA 通道 ， 每 个 通道 可 在 任何 时 候 启 用 ， 这 些 通道 的 编号 为 0、 
1、2 和 3。 

8327 有 四 组 5 个 控制 /命令 寄存 器 ， 每 个 通道 一 组 ， 用 于 编程 和 控制 DMA 操作 (如 表 7-2 所 示 )。 


表 7-2 Intel 8237 A 寄存 器 












































位 命令 状态 模式 单 屏 项 全 屏蔽 
DO | 存储 器 到 存储 器 E/D ”| 通道 0 已 达到 TC 清除 /设置 通道 0 屏蔽 位 
通道 选择 选择 通道 屏蔽 位 
DI | 通道 0 地 址 保持 E/D ”| 通道 1 已 达到 TC 清除 /设置 通道 1 屏蔽 位 
D2 | 控制 器 E/D 通道 2 已 达到 TC 清除 /设置 屏 项 位 | 清除 /设置 通道 2 屏蔽 位 
检验 / 写 / 读 传送 
D3 | 正常 /压缩 时 序 通道 3 已 达到 TC 清除 /设置 通道 3 屏蔽 位 
D4 | 固定 /轮转 优先 权 通道 0 请 求 自动 初始 E/D 
D5 | 滞后 /扩展 写 选 择 通道 0 请 求 地 址 增 / 减 选择 | 不 使 用 
D6 | DREQ 有 效 电 平 为 高 / 低 | 通道 0 请 求 不 使 用 
sei ace 需求 /单一 / 块 / 
D7 | DACK 有 效 电 平 为 高 / 低 | 通道 0 请 求 Bets 
YE: E/D = enable/disable ( 允许 /禁止 ) 


TC = terminal count (终止 计数 ) 


命令 寄存 器 : 处 理 器 将 命令 字 装 人 这 个 寄存 器 以 控制 DMA RE, DO 位 允许 存储 器 到 存 
储 器 的 数据 传送 。 此 时 ， 通 道 0 用 于 将 字 节 传送 到 8237 的 暂 存 寄存 器 ， 而 通道 1 用 于 将 
此 字 节 从 暂 存 寄存 器 传送 到 存储 器 。 当 存储 器 到 存储 器 的 数据 传送 有 效 时 ，D1 能 用 于 通 
道 0 的 地 址 保持 (禁止 地 址 增 或 减 )， 从 而 使 写 人 存储 器 的 值 是 固定 的 。D2 位 用 于 启用 
或 禁止 DMA。 

状态 寄存 器 : 处 理 器 通过 读 取 这 个 寄存 器 来 确定 DMA 的 状态 。D0 ~ D3 位 被 用 来 指示 通 
道 0 ~3 是 否 已 达到 终止 计数 (TC) 。D4 ~ D7 位 被 处 理 器 用 来 指示 通道 0 ~3 是 否 有 DMA 
请 求 未 解决 。 

模式 寄存 器 : 处 理 器 设置 此 寄存 器 来 决定 DMA 的 操作 模式 。D0 和 D1 位 用 于 选择 通道 ， 
其 他 位 用 于 指定 被 选 通道 的 操作 模式 。D2 和 D3 确定 数据 是 从 VO 设备 到 存储 器 ( 写 操 
作 ) 还 是 从 存储 器 到 VO 设备 〈( 读 操作 ) ， 或 者 是 一 个 校 验 操 作 。 若 D4 位 有 效 ， 则 DMA 
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传送 结束 时 存储 器 地 址 寄存 器 和 计数 器 重新 装 入 初始 值 。D6 和 D7 位 指定 8237 的 使 用 方 
式 ， 其 中 单一 模式 传送 字 节 ， 块 模式 和 需求 模式 用 于 传送 数据 块 ， 需 求 模 式 还 允许 传送 
过 程 提前 结束 。 级 联 模式 允许 多 个 8237 级 联 ， 使 通道 数 多 于 4。 

。 单 屏蔽 寄存 器 : 处 理 器 设置 此 寄存 器 。D0 和 D1 位 选择 通道 ，D2 位 用 于 清除 或 设置 该 通 
道 的 屏蔽 位 。 通 过 这 个 寄存 器 指定 某 一 通道 的 DREQ 输入 被 屏蔽 或 允许 。 命 令 寄存 器 能 
使 整个 DMA 芯片 无 效 ， 而 单 屏 蔽 寄存 器 允许 程序 员 对 某 一 通道 设置 有 效 或 无 效 。 

。 全 屏蔽 寄存 器 : 它 类 似 于 单 屏蔽 寄存 器 ， 与 之 不 同 的 是 ， 它 可 以 通过 一 次 写 操作 屏蔽 或 
启用 四 个 通道 。 

此 外 ，8237 A 还 有 8 个 数据 寄存 器 : 每 个 通道 有 一 个 存储 器 地 址 寄存 器 和 一 个 计数 寄存 器 。 

处 理 器 设置 这 些 寄存 器 来 表示 传送 数据 的 主 存 地 址 和 存储 块 大 小 。 


7.6 |/O 通道 和 处 理 器 


7.6.1 IO 功能 的 演变 

随 着 计算 机 系统 的 发 展 ， 单 个 部 件 的 复杂 性 不 断 提高 ， 这 一 变化 明显 地 体现 在 IO 功能 上 ， 
我 们 已 经 看 到 了 部 分 演变 ， 其 演变 步骤 可 以 归纳 如 下 : 

(1) CPU 直接 控制 外 设 ， 这 主要 用 于 简单 的 微 处 理 器 控制 设备 。 

(2) 增加 控制 器 或 VO 模块 ， 处 理 器 使 用 编程 式 WO 而 不 是 中 断 ， 使 处 理 需 从 外 设 的 特殊 
细节 中 解脱 出 来 。 

(3) 采用 与 2 相同 的 配置 ， 但 使 用 了 中 断 ， 处 理 器 不 需要 浪费 时 间 等 待 VO 操作 完成 ， 提 
高 了 处 理 器 的 工作 效率 。 

(4) LO 模块 通过 DMA 直接 存 取 存 储 器 ， 传 输 数 据 不 需要 处 理 器 的 参与 ， 除 了 在 传输 的 开 
始 和 结束 时 参与 以 外 。 

(5) YO 模块 成 为 有 自主 控制 权 的 处 理 器 ， 有 处 理 YO 的 专用 指令 集 。CPU 指示 IO 处 理 器 
执行 存储 器 中 的 O EF, VO 处 理 器 不 需要 CPU 的 干涉 就 能 获取 和 执行 O 指令 。 这 允许 CPU 
指派 一 系列 VO 活动 ， 并 只 在 整个 活动 执行 完成 后 才 中 断 CPU, 

(6) LO 模块 带 有 其 局 部 存储 器 ， 成 为 一 台 自 治 的 计算 机 。 这 种 结构 可 以 控制 大 量 的 IO 设 
备 而 最 小 化 了 CPU 的 干涉 ， 它 常用 于 与 交互 式 终端 进行 通信 。1/O 处 理 器 负责 大 部 分 任务 ， 包 括 
控制 终端 。 

从 上 面 的 演变 过 程 可 以 看 出 ， 越 来 越 多 的 VO 功能 在 执行 时 不 需 CPU 参与 ，CPU 日 益 从 IO 
相关 工作 中 解放 出 来 ,改善 了 系统 性 能 。 最 后 两 步 ( (5) 和 “(6)) 的 主要 改变 体现 在 引入 了 
VO 模 块 能 够 执行 程序 的 概念 。 对 于 第 (5) 步 , 该 VO 模块 常 称 为 /0 通道 (1/0 channel); 而 
在 第 (6) 步 中 常常 使 用 术语 VO 处 理 器 (1/0 processor) 。 然 而 ， 这 两 个 术语 偶尔 才 用 于 两 种 情 
况 。 在 下 面 的 介绍 中 ， 我们 将 统一 使 用 LO 通道 这 一 术语 。 


7.6.2 IO 通道 的 特点 


LO 通道 是 DMA 概念 的 扩充 。LO 通道 可 以 执行 VO 指令 来 控制 VO 操作 ， 此 时 ，CPU 不 执 
行 VO 指令 ， 这 些 指 令 存 储 在 主 存 中 ， 由 IO 通道 本 身 的 一 个 专用 处 理 器 执行 。 因 此 ，CPU 通过 
请 求 VO 通道 执行 存储 器 中 的 程序 来 启动 一 次 O 数据 传送 ， 程 序 将 指定 一 个 或 几 个 设备 、 一 块 
或 几 块 存储 器 区 域 、 优 先 级 以 及 出 错时 的 处 理 行为 ， 而 VO 通道 执行 这 些 指令 来 控制 数据 传送 。 

VO 通道 通常 有 两 种 类 型 ， 如 图 7-15 所 示 。 第 一 类 是 选择 通道 ， 它 控制 多 个 高 速 设备 ， 并 且 
每 次 只 与 其 中 的 一 个 设备 进行 数据 传送 ， 即 WO 通道 选择 一 个 设备 ， 并 有 效 地 进行 数据 传送 。 每 个 
设备 或 一 小 组 设备 由 控制 器 或 VO 模块 管理 ， 因 此 ，LO 通道 代替 CPU 控制 这 些 VO 控制 器 。 第 二 
类 是 多 路 通道 ， 它 能 够 同时 处 理 多 个 设备 的 VO 操作 。 对 于 低速 设备 ， 字 节 多 路 选择 器 可 以 很 快 地 
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接收 和 传送 数据 到 多 个 设备 。 例如 ， 来 自 三 个 设备 的 字符 流 分 别 是 A A,A A, B, B,B,B, … 和 
C1C,C;C，…， 由 于 各 字符 流速 度 的 不 同 ,综合 的 字符 流 可 以 是 A B C ACA, B,C A, 等 等 。 对 于 高 
速 设备 ,一 种 称 为 块 多 路 选择 器 可 以 交叉 存 取 来 自 多 个 设备 的 数据 块 。 


数据 和 地 址 通道 
至 主 存储 器 

















控制 信号 
路 径 至 CPU 
数据 和 地 址 通道 
至 主 存储 器 
==> ya! 
kard vormi —O) 
a) 选择 通道 b) 多 路 通道 


图 7-15 1/0 通道 体系 结构 
7.7 ”外 部 接口 : FireWire 和 InfiniBand 


7.7.1 接口 类 型 


VO 模块 与 外 设 的 接口 是 根据 外 设 的 性 质 和 操作 进行 设计 的 ， 接 口 的 一 个 主要 特性 是 串 行 传 
输 或 者 并 行 传输 (如 图 7-16 所 示 ) 。 在 并 行 接口 中 ， 有 多 根 线 连接 1/0 模块 和 外 设 ， 同 时 传送 多 
位 ， 正 如 一 个 字 的 所 有 位 在 数据 总 线 上 同时 传输 一 

样 。 在 串 行 接口 中 ， 只 有 一 根 线 用 于 传送 数据 , 每 。 ， 
次 只 传输 一 位 。 通 常 ， 并 行 接口 用 于 高 速 外 设 ， 如。 总线- 
磁带 和 磁盘 ， 而 串 行 接口 通常 用 于 打印 机 和 终端 。 
随 着 新 一 代 高 速 串 行 接口 的 出 现 ， 并 行 接口 变 得 不 J 
大 普遍 了 。 ane 









在 任 一 种 情况 下 ，LO 模块 必须 与 外 设 进 行 对 oe 

话 。 通 常情 况 下 ， 写 操作 的 对 话 过 程 如 下 : 
(1) IO 模块 发 送 控制 信号 ， 请 求 发 送 数据 。 = BA — 
(2) 外 设 响应 该 请 求 。 eee Poe 


(3) LO 模块 传送 数据 〈 一 次 传送 一 个 字 或 一 a 
个 数据 块 ， 取 决 于 外 设 ) 。 b) 申 行 1O 

(4) 外 设 确认 接收 到 数据 。 图 7-16 ”并行 VO 和 串 行 WO 
读 操 作 的 对 话 过 程 与 此 类 似 。 


VO 模块 操作 的 关键 是 内 部 缓冲 器 ， 它 能 暂 存 在 外 设 与 系统 之 间 传 输 的 数据 ， 以 平衡 系统 总 
线 与 其 外 部 导线 的 速度 不 匹配 。 


7.7.2 点 对 点 和 多 点 配置 


在 计算 机 系统 中 ，LO 模块 和 外 设 的 连接 可 以 采用 点 对 点 或 多 点 方式 。 点 对 点 方式 为 LO 模 
块 和 外 设 之 间 提 供 了 一 条 专用 线 。 小 型 系统 (PC 机 或 工作 站 ) 中 ,一 般 点 对 点 连接 包括 键盘 、 
打印 机 和 外 部 调制 解 调 器 。 典 型 的 例子 是 EIA-232 规范 (参见 [STAL07]。 
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多 点 外 部 接口 越 来 越 重要 ， 它 用 于 支持 外 部 海量 存储 设备 ( 如 磁盘 和 磁带 机 ) 和 多 媒体 设 
备 (CD-ROM、 视 频 和 音频 设备 ) 。 这 些 多 点 接口 在 外 部 总 线 上 有 效 ， 它 们 展示 了 与 第 3 章 中 讨 
论 的 总 线 同类 型 的 逻辑 。 本 节 将 介绍 两 个 关键 的 例子 : FireWire 和 InfiniBand, 


7.7.3 FireWire 串 行 总 线 


随 着 处 理 器 速度 达到 GHz 范畴 和 存储 设备 具有 多 个 千 兆 位 ， 个 人 计算 机 、 工 作 站 及 服务 器 
对 IO 的 要 求 越 来 越 高 ， 而 在 大 型 机 及 超级 计算 机 系统 中 开发 的 高 速 LO 通道 技术 对 于 这 些 较 小 
的 计算 机 系统 来 讲 还 是 太 昂贵 、 太 笨重 了 ， 因 此 必须 致力 于 开发 高 速 的 替代 小 型 计算 机 系统 接 
O (SCSI) 及 其 他 小 系统 YO 接口 的 产品 。 结 果 导 致 了 IEEE 标准 1394 ， 一 种 高 性 能 的 串 行 总 
线 ， 通常 称 为 FireWire。 

FireWire LÆRK VO 接口 具有 更 多 的 优点 ， 它 速度 快 、 价 格 便宜 而 且 容 易 实现 。 事 实 上 ， 
FireWire 不 仅 在 计算 机 系统 ， 而 且 在 消费 者 电子 产品 ， 如 数字 照相 机 、DVD 播放 器 /录像 机 和 电 
视 机 方面 都 很 受 欢迎 ，FireWire 用 于 传送 日 益 丰 富 的 数字 视频 图 像 。 

FireWire 接口 的 特点 之 一 是 采用 串 行 传送 〈 每 次 一 位 ) 而 不 是 并 行 传送 。 相 对 而 言 ， 并 行 接 
O (如 SCSI) ， 需 要 更 多 的 线 ， 也 意味 着 更 宽 、 更 昂贵 的 电缆 和 更 宽 、 更 昂贵 的 带 有 多 外 引 脚 的 
连接 器 。 多 线 电缆 需要 屏蔽 保护 ， 以 避免 线 与 线 之 间 的 电气 干扰 。 而 且 并 行 接口 需要 保证 线 之 间 
的 同步 ， 如 果 电 缆 长 度 增加 则 问题 会 更 突出 。 

此 外 ,计算 机 体积 变 小 的 同时 计算 能 力 及 WO 要 求 却 不 断 增 加 ， 手 提 式 和 袖珍 式 计算 机 给 连 
接 器 很 小 的 空间 ， 却 要 求 高 速 的 数据 传输 率 来 处 理 图 像 和 视频 信息 。 

FireWire 的 目的 是 提供 单一 的 VO 接口 ， 它 带 有 一 个 简单 的 连接 器 ， 能 通过 单个 端口 来 处 理 
多 个 设备 ， 因 此 可 以 作为 鼠标 、 激 光 打 印 机 、 外 部 磁盘 驱动 器 、 声 音 设 备 和 局 域 网 的 连接 器 都 能 
被 这 个 连接 器 所 取代 。 

1. FireWire 配置 

FireWire 采用 菊花 链 配置 ， 一 个 端口 最 多 可 以 连接 63 个 设备 。 而 且 ， 高 达 1022 条 FireWire 
总 线 能 用 桥 互 联 ， 以 便 系 统 支 持 所 需要 的 大 量 外 设 。 

FireWire 提供 热 插 拔 ， 连 接 或 断 开 外 设 时 不 需要 关闭 计算 机 系统 ， 也 不 需要 重新 配置 系统 。 
而 且 ，FireWire 支持 自动 配置 ， 即 不 需 手 工 设置 设备 的 ID 或 相关 的 设备 位 置 配置 。 图 7-17 给 出 
了 一 种 简单 的 FireWire 配置 ，FireWire 无 需 终结 器 ， 系 统 会 自动 进行 设备 地 址 分 配 。 注 意 ， 
FireWire 也 可 以 采用 树 结构 配置 方式 ， 而 不 一 定 总 是 精确 的 菊花 链 方式 。 








图 7-17 简单 的 FireWire 配置 


FireWire 标准 的 重要 特点 是 ， 它 用 一 组 三 层 协议 来 标准 化 主机 与 外 设 间 的 串 行 交互 ， 图 7-18 
是 栈 示意 图 ， 栈 的 三 层 协议 是 : 

。 物理 层 : eX FireWire 允许 传输 的 媒体 及 每 种 媒体 的 电气 和 信号 特性 。 

。 链 路 层 : 描述 数据 包 的 传输 。 

。 业务 层 : 定义 请 求 - 响 应 协议 ， 对 应 用 层 隐藏 了 FireWire 较 低 层 的 细节 。 
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2. 物理 层 
FireWire 物理 层 指定 了 一 些 可 选 传输 媒体 及 连接 器 ， 它 们 有 不 同 的 物理 特性 和 数据 传输 特 
性 。 物 理 层 定义 的 数据 传送 速度 为 25 ~ 
3200Mb/s， 它 负责 将 二 进 制 数据 转换 成 | | 
多 种 物理 媒体 的 电信 号 ， 并 提供 仲裁 服 站 7 
务 以 保证 每 次 只 有 一 个 设备 发 送 数据 。 
FireWire 提供 了 两 种 仲裁 形式 。 最 简 
单 的 一 种 形式 是 较 早 提出 的 基于 FireWire | 异步 同步 











业务 层 〈 读 、 写 、 锁 定 ) 








a, o 
总 线 上 节点 按 树 结构 排列 的 方式 。 在 特 |a mE AB 
殊 情况 下 它 可 以 成 为 一 种 线性 菊花 链 结 | 钊 | . 7 E 
g 包 发 送 包 接 收 周期 控制 
构 。 物 理 层 的 逻辑 允许 所 有 连接 设备 对 |2 
自己 进行 配置 ， 因 此 一 个 节点 成 为 树 根 ， | =e 


其 他 节点 以 父 / 子 关系 组 织 形成 树 的 拓扑 
结构 。 一 旦 这 种 配置 建立 起 来 ， 根 节点 
作为 中 央 仲 裁 器 ， 按 先 来 先 服务 方式 处 | 
理 总 线 请 求 。 如 果 同 时 有 几 个 请 求 , 则 | “| Camere REIL ase | 
具有 最 高 自然 优先 级 的 节点 先 存 取 。 离 ”一 一 
树 根 越 近 的 节点 具有 越 高 的 优先 级 ， 离 图 7-18 FireWire 协议 栈 
树 根 距离 相等 的 节点 ， 其 ID 数 越 小 优先 级 越 高 。 
上 述 仲裁 方法 还 补充 了 公平 仲裁 和 紧急 仲裁 两 种 附加 功能 。 对 于 公平 仲裁 ， 总 线 上 的 时 间 
被 划分 为 相等 的 时 间 间 隔 。 在 一 个 时 间 间 隔 开始 时 ， 每 个 节点 设置 允许 仲裁 标志 ， 在 这 个 间隔 内 
每 个 节点 都 可 以 竞争 总 线 访问 。 一 旦 某 个 节点 获得 了 总 线 访问 ， 它 就 清除 其 允许 仲裁 标志 ， 并 在 
此 时 间 间 隔 内 不 能 再 竞争 总 线 。 这 种 方案 保证 了 仲裁 的 公平 ， 避 免 了 一 个 或 多 个 忙 的 高 优先 级 
的 设备 独占 总 线 。 
除了 公平 方案 外 ， 还 可 以 给 一 些 设备 配置 紧急 优先 级 。 这 种 节点 在 一 个 间隔 期 间 内 可 以 多 
次 获得 总 线 控制 权 。 实 质 上 ， 在 每 个 高 优先 级 节点 中 使 用 一 个 计数 器 ， 使 高 优先 级 节点 可 控制 总 
线 的 75% 的 时 间 。 即 一 个 包 用 于 非 紧急 传送 ， 而 三 个 包 可 用 于 紧急 传送 。 
3. 链 路 层 
链 路 层 定义 了 数据 包 的 传输 ， 它 支持 丙种 传送 类 型 ， 
。 异步 : 将 可 变数 量 的 数据 和 几 个 字 节 的 传输 层 信息 打包 后 传送 到 一 个 显 式 地 址 ， 并 返回 
一 个 确认 信号 。 
。 同步: 将 可 变数 量 的 数据 以 一 系列 固定 大 小 的 包 形式 、 按 规则 的 间隔 传输 ， 这 种 传输 方 
式 使 用 简单 的 寻 址 方式 ， 且 无 需 返 回 确认 信息 。 
异步 传输 用 于 数据 传输 率 可 变 的 传输 ， 公 平 仲裁 和 紧急 仲裁 都 可 以 采用 这 种 方式 ， 其 默认 
方法 是 公平 仲裁 。 如 果 设 备 需要 总 线 中 数据 的 重要 部 分 ， 或 有 严格 的 时 间 要 求 ， 则 采用 紧急 仲裁 
方法 。 例 如 ， 当 关键 的 数据 缓冲 区 已 满 了 一 半 以 上 时 ， 高 速 实 时 数据 采集 节点 就 可 以 使 用 紧急 
仲裁 。 
图 7-19a 表示 一 个 典型 的 异步 传输 。 传 递 单个 包 的 过 程 称 为 子 动作 ， 它 包括 五 个 时 钟 周期 : 
。 仲裁 序列 : 这 是 发 送 给 具有 总 线 控制 权 的 设备 的 信号 交换 。 
。 包 传输 : 每 个 包 的 包头 包含 了 源 ID 和 目的 ID， 包头 还 包含 包 的 类 型 信息 、CRC (循环 元 
余 码 校 验 ) 检验 和 以 及 包 的 特殊 类 型 参数 。 包 还 可 能 包含 一 个 由 用 户 数据 和 另 一 个 CRC 
检验 组 成 的 数据 块 。 
。 RAER: 这 是 目标 端 接受 和 译 码 数据 包 并 生成 确认 信号 所 需要 的 时 延 。 





第 7 章 输入 /输出 "159 


。 确认 : 接收 端 回 送 一 个 确认 包 ， 表 未 数 据 包 已 经 收 到 。 
。 子 动作 间隙 : 这 是 一 个 强制 空闲 周期 ， 以 保证 总 线 上 的 其 他 节点 在 确认 包 传 送 前 不 进行 





总 线 仲裁 。 
子 动作 1: 请 求 
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9) 异 步子 动作 举例 


子 动作 1: WR FAZ: 响应 





= 
间隙 








lsoch 
Ack 
EE 


c) 同 步子 动作 举例 
图 7-19 FireWire 子 动作 


接收 端 发 送 确 认 包 时 ， 它 具有 总 线 控制 权 ， 因 此 ， 如 果 在 两 个 节点 之 间 进 行 一 次 请 求 /响应 
传输 ， 则 接收 节点 不 需要 进行 总 线 仲裁 就 可 以 立即 传输 确认 包 (如 图 7-19b 所 示 )。 

对 于 那些 定期 发 出 和 接收 数据 的 设备 ， 如 音频 设备 和 视频 设备 ， 可 以 采用 同步 传输 方式 ， 这 
样 可 以 保证 数据 在 指定 的 时 延 内 以 一 定 的 数据 传输 率 进行 传输 。 

为 了 协调 同步 信息 和 异步 信息 的 混合 传输 ， 要 指定 一 个 节点 为 周期 主 节 点 。 周 期 主 节点 定 
期 地 发 送 一 个 周期 开始 包 ， 告 诉 其 他 所 有 节点 同步 周期 开始 。 这 个 周期 只 进行 同步 传输 (如 图 
7-19c 所 示 ) ， 通 过 总 线 仲裁 ， 获 得 总 线 控制 权 的 同步 节点 可 以 立即 发 送 一 个 数据 包 ， 且 无 需 确 
认 。 该 数据 包 传 输 完 毕 后 ， 其 他 的 同步 节点 立即 进行 总 线 仲裁 。 这 样 ， 在 一 个 包 传输 到 下 一 个 包 
仲裁 之 间 会 有 一 小 段 时 间 间 隙 ， 表 示 总 线 延 迟 ， 这 个 延迟 称 为 同步 延 时 ， 它 小 于 子 动作 间隙 。 

同步 传输 结束 后 ， 总 线 保持 一 段 足 够 长 的 空闲 时 间作 为 子 动作 间隙 ， 这 相当 于 告诉 异步 源 
节点 : 现在 可 以 竞争 总 线 了 。 然 后 ， 异 步 数据 源 使 用 总 线 一 直到 下 一 个 同步 周期 开始 。 

同步 数据 包 用 8 位 通道 号 作为 标识 ， 由 交换 同步 数据 的 两 个 节点 间 的 对 话 先行 指定 。 同 步 数 
据 包 的 包头 包含 表示 数据 长 度 的 域 和 头 部 CRC 检验 码 ， 它 比 异 步 数据 包 的 包头 要 短 。 


7.7.4 InfiniBand 


InfiniBand 是 定位 高 端 服 务 器 市 场 的 一 种 最 新 O 规范 ， 该 规范 的 第 一 个 版 本 发 布 于 2001 
年 早期 并 吸引 了 众多 厂商 。 此 标准 描述 了 一 种 体系 结构 和 处 理 器 与 智能 VO 设备 之 间 的 数据 流传 
输 的 规范 。InfiniBand 已 经 成 为 了 网 络 存 储 器 和 海量 配置 存储 器 的 通用 接口 。 实 际 上 ， 它 允许 服 
务 器 、 远 程 存 储 器 以 及 其 他 网 络 设 备 连 接 到 由 交换 器 和 链 路 组 成 的 中 央 网 带 。 这 种 基于 交换 器 
的 体系 结构 最 多 可 以 连接 64 000 个 服务 器 、 存 储 系统 和 网 络 设备 。 

1. InfiniBand 体系 结构 

尽管 PCI 是 一 种 可 靠 的 传输 方式 ， 而 且 其 速度 在 不 断 提升 ， 目 前 已 达 4GCb/s， 但 与 InfiniBand 





© InfiniBand 是 两 个 竞争 项 目 合 并 的 结果 ， 这 两 个 项 目 是 未 来 的 VO (由 Cisco. 惠普、 康 柏 和 IBM 支持 ) 和 下 一 代 
VO (由 Intel 开发 和 其 他 很 多 公司 支持 ) 。 
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相 比 ， 它 仍 是 一 种 受 限 的 体系 结构 。 拥 有 InfiniBand， 远 程 存 储 器 和 网 络 系统 与 服务 器 之 间 的 连 
接 是 通过 连接 到 一 个 由 交换 器 和 链 路 组 成 的 中 央 网 带 实现 的 ， 它 不 需要 服务 端 提供 底层 的 硬件 
YOO, MURR VO 设备 或 者 添加 新 的 独立 节点 ， 人 允许 更 大 的 服务 器 密度 且 系 统 容易 
扩展 。 
与 PCI ( 它 与 CPU 主板 只 相距 厘米 级 的 距离 ) 不 同 ，InfiniBand 的 通道 设计 为 : 如 果 使 用 铜 
线 ， 则 允许 WO 设备 在 距离 服务 器 17m 远 的 地 方 ; 如 果 是 多 模 光 纤 ， 可 以 允许 300m 的 距离 ;如 
果 是 单 模 光纤 ， 则 允许 10km 的 距离 。 而 且 其 数据 传输 率 可 以 高 达 30Gb/s。 
图 7-20 说 明了 InfiniBand 体系 结构 ， 其 主要 部 件 如 下 所 示 : 
e 主机 通道 适配器 (host channel adapter, HCA): 典型 的 服务 器 不 再 采用 多 个 PCI 槽 ， 而 是 
只 需要 一 个 HCA 接口 ， 由 HCA 将 服务 器 连接 到 InfiniBand 交换 器 。HCA 连接 到 服务 器 的 
存储 控制 器 ， 此 控制 器 访问 总 线 ， 并 控制 处 理 器 与 存储 器 、HCA 与 存储 器 之 间 的 数据 传 
输 。HCA 采用 直接 存储 器 存 取 方 式 (DMA) 读 写 存储 器 。 
。 目标 通道 适配器 (target channel adapter, TCA): TCA 用 于 将 远程 存储 系统 、 路 由 器 和 其 
他 外 围 设 备 连 接 到 InfiniBand 交换 器 。 
e InfiniBand 交换 器 : InfiniBand 交换 器 给 多 种 设备 提供 点 到 点 的 物理 连接 ， 并 将 一 条 链 路 
上 的 信息 切换 到 另 一 条 链 路 上 。 服 务 器 与 设备 利用 它们 的 适配器 ， 经 交换 器 相互 通信 。 
InfiniBand 交换 器 可 以 智能 地 管理 各 个 链接 而 不 需要 中 断 服务 器 的 操作 。 
© 链 路 : 介 于 InfiniBand 交换 器 与 通道 之 间 ， 或 两 个 交换 器 之 间 的 链接 线路 。 
e 子 网 (subnet): 一 个 子 网 由 一 个 或 多 个 交换 器 ， 以 及 连接 到 这 些 交换 器 的 设备 组 成 。 图 
7-20 表示 的 子 网 只 包含 了 一 个 交换 器 ， 但 是 更 复杂 的 子 网 往往 连接 着 大 量 的 设备 。 它 可 
以 为 管理 员 提 供 子 网 内 部 的 广播 和 多 播 服 务 。 
o 路 由 器 (router); 连接 InfiniBand 各 子 网 或 者 将 InfiniBand 交换 器 连 到 局 域 网 、 广 域 网 或 
存储 区 域 网 等 。 








IB =InfiniBand 
HCA=host channel adapter NG F 
TCA=target channel adapter “sa Eg 


图 7-20 InfiniBand 交换 器 网 带 


通道 适配器 是 一 种 智能 设备 ， 它 能 管理 所 有 IO 操作 而 无 需 中 断 服务 器 的 处 理 进 程 。 例 如 ， 
有 一 个 控制 协议 , 通过 协议 转换 通道 适配器 能 找到 网 带 中 所 有 的 TCA 和 HCA， 并 给 每 个 TCA 和 
HCA 指派 一 个 逻辑 地 址 ， 而 完成 这 些 工作 都 无 需 人 处理 器 介入 。 

InfiniBand 交换 器 可 以 即时 打开 处 理 器 与 设备 之 间 的 通道 ， 各 设备 并 不 共享 通道 的 容量 。 这 
与 PCI 基于 总 线 的 设计 不 同 ，PCI 中 各 设备 共享 总 线 ， 访 问 处 理 器 时 要 先进 行 总 线 仲裁 。 而 且 ， 


第 7 章 输入 /输出 .161 


InfiniBand 通过 将 设备 的 TCA 挂 接 到 InfiniBand 交换 器 ， 就 可 以 将 设备 添加 到 配置 系统 中 。 

2. InfiniBand 操作 

交换 器 和 与 之 连接 的 接口 (HCA BK TCA) 之 间 的 每 条 物理 链 路 能 支持 多 达 16 条 逻辑 通道 ， 
称 为 虚拟 通路 ( virtual lanes) 。 一 条 通路 用 于 网 带 管理 ， 其 余 用 于 数据 传输 。 数 据 以 数据 包 流 的 
形式 发 送 ， 每 个 包 包括 部 分 待 传 数据 以 及 地 址 信息 和 控制 信息 ， 使 用 一 组 通信 协议 管理 数据 传 
输 。 一 条 虚拟 通路 可 以 临时 地 作为 专用 数据 传输 路 径 ， 经 InfiniBand 网 带 将 数据 由 一 个 端 节 点 传 
送 到 男 一 个 端 节点 。InfiniBand 交换 器 将 来 自 输 入 通道 的 传输 映射 到 输出 通道 ， 路 由 节点 间 的 数 

图 7-21 给 出 了 支持 InfiniBand 数据 交换 的 逻辑 结构 。 事 实 上 ， 有 些 设备 发 送 数据 的 速度 比 接 
收 设备 接收 数据 的 速度 要 快 ， 因 此 在 链 路 的 两 端 都 有 一 缓冲 队列 ， 用 于 临时 存放 输入 和 输出 的 
数据 。 缓 冲 队列 可 位 于 通道 适配器 内 ， 也 可 以 在 连接 的 设备 存储 器 内 。 每 条 虚拟 通路 都 有 一 对 分 
离 的 缓冲 队列 ， 主 机 以 如 下 方式 使 用 这 些 队 列 。 主 机 放置 一 个 事件 ， 称 为 工作 队列 项 (Work 
Queue Entry, WQE) ， 到 该 队列 对 的 发 送 队列 或 接受 队列 ， 两 个 最 重要 的 WQE 是 SEND (发 送 ) 
和 RECEIVE (接收 ) 。 对 于 SEND 操作 ， 其 WQE 为 硬件 指定 设备 存储 空间 的 一 块 数据 发 送 给 目 
标 设备 。 当 有 设备 发 送 数 据 时 ，RECEIVE WQE 指定 接收 设备 将 接收 的 数据 放 在 何 处 。 通 道 适 配 
器 以 适当 的 优先 级 顺序 来 处 理 每 个 递交 的 WQE， 并 产生 一 个 完成 队列 登记 (Completion Queue 
Entry, CQE) 来 表示 完成 情况 。 


物理 层 





IB=InfiniBand 
WQE= 工 作 队 列 项 
CQE= 完 成 队列 项 
QP= 队 列 对 


图 7-21 InfiniBand 通信 协议 栈 


图 7-21 还 表示 了 所 用 的 协议 层 结构 ， 一 共有 四 个 层次 : 

。 物理 层 : 该 层 定义 了 三 种 链 路 速度 (1X、4X 和 12X) ， 传 输 率 分 别 是 2.5 10 和 30Gbys 
(如 表 7-3 所 示 ) ， 它 还 定义 了 一 些 物 理 媒介 ， 包 括 铜 线 和 光纤 。 

。 链 路 层 : 该 层 定义 了 数据 传输 的 基本 包 结 构 ， 数 据 包 中 包含 为 子 网 中 每 个 设备 指定 一 个 
唯一 的 链 路 地 址 的 寻 址 方式 。 该 层 还 包含 了 一 些 逻 辑 ， 用 来 建立 虚拟 通路 或 将 数据 从 源 
设备 交换 到 目标 设备 。 数 据 包 结构 还 包含 检 错 码 ， 以 提高 数据 传输 的 可 靠 性 。 

。 MAR: 该 层 提供 不 同 InfiniBand 子 网 之 间 的 数据 包 的 路 由 。 

。 传输 层 : 该 层 为 经 过 一 个 或 多 个 子 网 的 端 到 端的 数据 包 传输 提供 可 靠 性 机 制 。 
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表 7-3 InfiniBand 链 路 和 数据 吞吐 率 












链 路 信和 号 速度 〈 单 向 ) 可 用 容量 (信号 速率 的 80% ) 有 效 数据 吞吐 率 ( 发送 + 接收 ) 











1-88 2.5Gb/s 2Gb/s(250MB/s) | (250 +250) MB/s 
4- 宽 10Gb/s 8Gb/s(1CB/s) | (1 +1) GB/s 
12-5 30Gb/s 24Cb/s(3GB/s) (3 +3) GB/s 


7.8 推荐 的 读物 和 Web 站 点 
关于 Intel VO 模块 和 体系 结构 的 讨论 ， 包 括 82C59A、82C55A 、8237A， 可 参见 [MAZI03] 和 [BREY09] 。 
[ANDE98] 中 对 FireWire 有 详细 的 介绍 ，[ WICK97] 和 [THOM00] 对 FireWire 也 有 简单 的 介绍 。 
[SHAN03] 和 [FUTRO1] 对 InfiniBand 进行 了 详细 的 阐述 。[KAGA01] 也 对 它 进行 了 简明 的 综述 。 








ANDE98 Anderson, D. FireWire System Architecture. Reading, MA: Addison-Wesley ,1998. 

BREY09 Brey, B. The Intel Microprocessor: 8086/8066, 80186/80188 , 80286, 80386, 80486 , 
Pentium, Pentium Pro Processor, Pentium II, Pentium III , Pentium 4 and Core2 with 64-bit Ex- 
tensions. Upper Saddle River, NJ: Prentice Hall, 2009. 
FUTRO1 = Futral, W. InfiniBand Architecture; Development and Deployment. Hillsboro, OR; Intel 
Press, 2001. | 
KAGAO1 Kagan, M. “InfiniBand: Thinking Outside the Box Dwsign” Communications System De- 
sign, September 2001. (www. csdmag.com) 

MAZI03 Mazidi, M. , and Mazidi, J. The 80X86 IBM PC and Compatible Computer; Assembly Lan- 
guage, Design and Interfacing. Upper Saddle River, NJ; Prentice Hall ,2003. 

SHANO3 Shanley, T. InfiniBand Network Architecture. Reading, MA: Addison-Wesley, 2003. 

THOM00 Thompson, D. “IEEE 1394: Changing the Way We Do Multimedia Communications. ” 
IEEE Multimedia, April-June 2000. 

WICK97_ Wickelgren, I. “The Facts about FireWire. ” IEEE Spectrum, April 1997. 











ts 
gs 


了 | 推荐 的 Web 站 点 





e T10 Home Page: T10 是 ( 美 ) 国家 信息 技术 标准 委员 会 的 技术 委员 会 ， 它 负责 低层 接口 ， 
主要 从 事 小 型 计算 机 系统 接口 (SCSI) 方面 的 工作 。 

e 1394 Trade Association， 提供 FireWire 的 技术 信息 和 厂商 信息 。 

e InfiniBand Trade Association: 提供 InfiniBand 的 技术 信息 和 厂商 信息 。 

e National Facility for MO Characterization and Optimization: 是 1/0 设计 和 性 能 领域 的 教 
学 和 研究 的 专门 机 构 ， 提 供 有 用 的 工具 和 指导 。 


79 关键 词 、 思 考题 和 习题 


关键 词 

cycle stealing: 周期 窃取 I/O command: I/O 命令 

direct memory access (DMA): 存储 器 直接 存 取 I/O module; I/O 模块 

FireWire: 高 速 串 行 连接 总 线 标准 I/O processor; I/O 处 理 器 

InfiniBand; 高 端 宽 带 IO 标准 isolated I/O: 分 离 式 LO 

interrupt: "Pf memory-mapped I/O: 存储 器 映射 式 IO 
interrupt-driven I/O: 中 断 驱 动 式 IO multiplexor channel: 多 路 转换 通道 


I/O channel: 1⁄0 通道 parallel LO: 并 行 IO 
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peripheral device: 外 围 设备 selector channel; 选择 通道 
programmed I/O; 编程 式 VO serial /O: #47 VO 
思考 题 


7.1 列 出 外 设 或 外 围 设备 的 三 种 主要 分 类 。 

7.2 ”什么 是 国际 参考 字母 表 (IRA)? 

7.3 VO 模块 的 主要 功能 是 什么 ? 

7.4 列 出 并 简单 定义 实现 Y0 的 三 种 技术 。 

7.5 存储 器 映射 式 YO 与 分 离 式 YO 有 什么 区 别 ? 

7.6 ” 当 设 备 出 现 中 断 时 ,处理 器 如 何 知 道 是 哪个 设备 发 出 的 中 断 ? 
7.7 DMA 模块 取得 总 线 控制 权 并 占用 了 总 线 时 ， 处 理 器 做 什么 ? 


习题 

7.1 在 典型 的 微 处 理 器 中 ， 使 用 不 同 的 地 址 去 访问 指定 设备 控制 器 中 的 O 数据 寄存 器 、 控 制 和 状态 寄存 
器 ， 这 些 寄 存 器 称 为 端口 。 在 Intel 8088 中 ， 使 用 两 种 VO 指令 格式 ， 一 种 是 8 位 的 操作 码 指定 VO 操 
作 ， 随 后 是 8 位 的 端口 地 址 ; 另 一 种 是 VO 操作 码 指定 端口 地 址 在 16 位 的 DX 寄存 器 中 。 对 于 上 面 两 
种 寻 址 方式 ，8088 各 能 寻 址 多 少 个 端口 ? 

7.2 Zilog Z8000 微 处 理 器 系列 采用 类 似 的 指令 格式 ， 一 种 是 直接 寻 址 ， 即 指令 中 包含 16 位 的 端口 地 址 ; 另 
一 种 是 间接 寻 址 ， 端 口 地 址 存放 在 16 位 的 通用 寄存 器 中 。 这 两 种 方式 各 自 的 寻 址 范围 是 多 少 ? 

7.3 28000 还 包含 VO 数据 块 传输 功能 ， 与 DMA 不 同 ， 它 是 在 处 理 器 的 直接 控制 下 进行 。 块 传送 指令 指定 
一 端口 地 址 寄存 器 (Rp) ， 一 个 计数 器 (Re) 和 一 个 目标 寄存 器 (Rd). Rd 存放 主 存 地 址 ， 从 输入 端 
口 读 取 的 首 字 节 将 存放 在 这 一 地 址 中 。Re 是 16 位 通用 寄存 器 。 试 问 它 一 次 能 传送 多 大 的 数据 块 ? 

7.4 假设 有 一 个 微 处 理 器 ， 它 有 如 Z8000 这 样 的 VO 数据 块 传输 指令 。 这 种 指令 第 一 次 执行 后 ， 每 5 个 时 
钟 周期 再 执行 一 次 。 如 果 不 用 块 传输 指令 ， 取 指令 和 执行 指令 一 共 要 用 20 个 时 钟 周期 。 试 计算 ， 如 果 
传送 128 字 节 的 块 ， 用 块 传输 指令 ， 速 度 可 以 提高 多 少 ? 

7.5 一 个 基于 8 位 微 处 理 器 的 系统 有 两 个 1O 设备， 系统 两 个 控制 器 有 各 自 独立 的 控制 和 状态 寄存 器 ， 两 
个 设备 都 是 每 次 处 理 一 个 字 节 的 数据 。 第 一 个 设备 有 2 根 状态 线 和 3 根 控制 线 ， 另 一 个 设备 有 3 根 状 
态 线 和 4 根 控制 线 。 

(a) 要 读 取 每 个 设备 的 状态 信息 和 控制 信息 ，LO 控制 模块 需要 多 少 个 8 位 的 寄存 器 ? 
(b) 假设 第 一 个 设备 是 只 输出 设备 ， 那 么 寄存 器 数量 又 是 多 少 ? 
(c) 控制 两 个 设备 ， 需 要 多 少 地 址 单元 ? 

7.6 图 7-5 所 示 的 编程 式 VO 需要 处 理 器 进入 一 个 等 待 时 期 来 循环 检测 VO 设备 的 状态 ， 为 了 提高 效率 ， 
可 以 让 处 理 器 周期 性 地 检查 设备 状态 ， 即 设备 不 就 绪 时 ， 处 理 器 就 跳 转 到 其 他 任务 ， 一 定时 间 间 隔 后 
处 理 器 再 来 检查 设备 状态 。 

(a) 考虑 采用 上 述 办 法 向 打印 机 一 次 一 个 字符 地 输出 数据 ， 打 印 机 以 10 字符 / 秒 的 速度 进行 打印 。 若 
每 200ms 检查 一 次 打印 机 的 状态 ， 将 会 出 现 什么 情况 ? 

(b) 考虑 一 个 具有 单一 字符 缓冲 器 的 键盘 ,平均 以 10 字符 / 秒 的 速度 从 键盘 输入 字符 ， 两 次 连续 按键 
的 时 间 间 隔 可 以 短 至 60ms，LO 程序 应 该 以 多 大 的 频率 扫描 键盘 状态 ? 

7.7 某 微 处 理 器 每 20ms 扫描 一 次 输出 设备 的 状态 ， 由 定时 器 每 20ms 提醒 处 理 器 来 完成 。 设 备 接口 包括 两 
个 端口 : 一 个 表示 设备 状态 ,一 个 用 于 数据 输出 。 若 处 理 器 时 钟 频 率 是 83MHz， 那 么 它 扫描 并 服务 此 设 
备 要 花费 多 长 时 间 ? 为 简单 起 见 ， 所 有 相关 指令 的 周期 都 取 12 个 时 钟 周期 。 

7.8 在 7.3 节 中 已 列 出 了 存储 器 映射 VO 相对 于 分 离 式 VO 的 一 个 优点 和 一 个 缺点 。 试 再 列 出 两 个 优点 和 
两 个 缺点 。 

7.9 一 特殊 系统 由 操作 员 键 人 命令 来 控制 ， 每 8 小 时 键入 的 平均 命令 数 是 60。 

(a) 假设 处 理 器 每 100ms 扫描 一 次 键盘 ， 那 么 8 小 时 一 共 扫 描 了 多 少 次 ? 
(b) 若 采 用 中 断 驱动 式 XO， 处 理 器 访问 键盘 的 次 数 是 问题 (a) 的 百 分 之 几 ? 

7.10 考虑 某 一 设备 使 用 中 断 驱动 式 LO， 此 设备 以 平均 8KB/s 的 速度 连续 传送 数据 。 

(a) 假设 中 断 处 理 大 约 用 100js( 即 转 移 到 中 断 服务 例 程 (ISR) ， 执 行 中 断 程 序 ， 然 后 返回 到 主 程序 
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7.11 


7.13 


7.17 


7.18 


7.19 


共用 掉 的 时 间 ) 。 如 果 每 字 节 中 断 一 次 ， 则 处 理 器 百 分 之 几 的 时 间 用 于 这 个 IO 设备 ? 

(b) 假设 这 个 设备 有 两 个 16 字 节 的 缓冲 器 ， 当 一 个 缓冲 器 满 时 才 中 断 处 理 器 一 次 。 当 然 ， 中 断 处 理 
时 间 比 较 长 ， 因 为 ISR 还 要 传送 16 字 节 到 缓冲 器 。 在 执行 此 ISR 时 ， 处 理 器 每 传送 一 字 节 大 约 
要 用 8hs。 这 种 情况 下 ， 处 理 器 百 分 之 几 的 时 间 用 于 此 设备 ? 

(c) 假设 处 理 器 具有 Z8000 那样 的 数据 块 传输 指令 ， 人 允许 相应 的 ISR 每 传送 块 中 一 字 节 仅 用 2ps。 这 
时 ， 处 理 器 百 分 之 几 的 时 间 用 于 此 设备 ? 

在 所 有 的 含有 DMA 模块 的 系统 中 ，DMA 访问 主 存储 器 的 优先 级 比 处 理 器 访问 主 存储 器 的 优先 级 高 ， 

为 什么 ? 

DMA 模块 采用 周期 窃取 方式 把 字符 传输 到 存储 器 ， 设 备 的 传输 率 是 9600b/s， 处 理 器 以 1 000 000 条 

指令 / 秒 的 速度 获取 指令 (1MIPS)。 这 样 ， 由 于 DMA 模块 窃取 了 总 线 周期 ， 处 理 器 速度 将 减 慢 多 少 ? 

考虑 一 个 系统 ， 其 总 线 周 期 为 500ns。 无 论 是 从 处 理 器 到 DMA 模块 ， 还 是 从 DMA 模块 到 处 理 器 ， 总 

线 控制 的 传递 都 用 250ns。 一 个 VO 设备 使 用 DMA 方式 ， 其 数据 传输 率 是 50KB/s。 数 据 每 次 传送 一 

个 字 节 。 

(a) 若 使 用 突 发 式 DMA ， 即 数据 块 传送 之 前 DMA 模块 获得 总 线 控制 权 ， 并 一 直 维 持 对 总 线 的 控制 ， 
直到 整个 数据 块 传输 完毕 。 当 传送 128 字 节 的 数据 块 时 ， 设 备 占 用 总 线 多 长 的 时 间 ? 

(b) 若 使 用 周期 窃取 式 DMA, BR El, 

从 8237A 时 序 图 可 看 出 ， 一 旦 数据 块 传输 开始 ， 每 个 DMA 周期 占用 3 个 总 线 周 期 。 在 DMA 周期 中 ， 

8237A 在 存储 器 与 /O 设备 之 间 传 输 一 个 字 节 。 

(a) 若 8237A 的 时 钟 频率 是 5MHz， 那 么 传送 一 个 字 节 需 用 多 长 时 间 ? 

(b) 可 达到 的 最 大 数据 传输 率 是 多 少 ? 

(c) 假设 存储 器 不 够 快 ， 每 个 DMA 周期 必须 插入 2 个 等 待 状态 ， 则 实际 数据 传输 率 是 多 少 ? 

假定 在 习题 7.14 的 系统 中 ， 存 储 器 周期 为 750ns。 我 们 能 将 总 线 的 时 钟 频率 降低 到 多 少 而 不 影响 数据 

传输 率 ? 

一 个 DMA 控制 器 服务 于 4 条 仅 接 收 远程 通信 的 链 路 (每 个 DMA 通道 一 条 链 路 ) ， 每 条 链 路 的 速率 是 

64kb/s。 

(a) 应 以 突 发 模式 还 是 周期 窃取 模式 来 运行 此 控制 器 ? 

(b) 为 服务 各 DMA 通道 ， 应 采用 哪 种 优先 权 策略 ? 

一 个 32 位 的 计算 机 有 两 个 选择 通道 和 一 个 多 路 转换 通道 ， 每 个 选择 通道 支持 两 个 磁盘 和 两 个 磁带 设 

备 ; 每 个 多 路 转换 通道 与 两 台 行 式 打印 机 、 两 台 卡 片 输 入 机 和 10 个 VDT 终端 连接 。 假 设 传输 速率 

如 下 : 
磁盘 驱动 器 。 800KB/s 
磁带 驱动 器 。 200KB/s 
行 式 打印 机  6.6KB/s 
卡片 输入 机  1.2KB/s 
VDT 1KB/s 

估算 这 个 系统 最 大 的 总 VO 传输 速率 是 多 少 ? 

一 台 计 算 机 有 一 个 处 理 器 和 一 个 IO 设备 D，D 通过 单字 宽 的 共享 总 线 连 到 主 存储 器 M， 处 理 器 的 最 

大 速度 是 10° 条 指令 / 秒 ， 平 均一 条 指令 需 5 个 机 器 周期 ， 其 中 有 3 个 机 器 周期 需要 占用 存储 器 总 线 。 

存储 器 的 读 或 写 操作 占用 一 个 机 器 周期 。 假 设 处 理 器 连续 执行 “后 台 ” 程 序 ， 它 的 执行 速度 是 指令 

执行 速度 的 95% ， 并 假定 处 理 器 周期 等 于 总 线 周 期 。 现 在 ,假设 VO 设备 负责 D 与 M 间 的 大 量 数据 

块 传输 。 

(a) 如 果 采 用 编程 式 IO ，LO 传输 一 个 字 需 处 理 器 执行 两 条 指令 ， 试 估算 可 能 经 过 DD 的 最 大 IO 数 
据 传 输 速 率 ， 单 位 用 字 / 秒 。 

(b) 如 果 采 用 DMA ， 条 件 同 上 ， 其 传输 率 又 是 多 少 ? 

一 个 数据 源 产生 7 位 IRA 码 字 符 ， 每 个 字符 增加 一 个 奇偶 校 验 位 。 推 导 在 以 Rb/s 速度 传输 的 线 上 最 

大 的 有 效 数 据 传 输 速 度 (IRA 码 数据 位 的 速度 ) 的 表达 式 。 

(a) 异步 传输 ， 有 1.5 个 单元 的 停止 位 。 

(b) 位 同步 传输 ， 由 48 个 控制 位 和 128 个 数据 位 组 成 一 帧 。 


P21 


第 7 章 输入 /输出 .165 


(c) 与 上 题 相同 ， 但 有 1024 个 数据 位 。 

(d) 字符 同步 ， 每 帧 有 9 个 控制 字符 和 16 个 信息 字符 。 

(e) 与 上 题 相同 ， 但 有 128 个 信息 字符 。 

下 面 的 问题 基于 [ECKE90] 中 的 输入 /输出 机 制 〈 如 图 7-22 所 示 ): 





图 7-22 ”苹果 问题 


两 名 妇女 分 别 住 在 高 篱 秃 的 两 边 ， 一 名 叫 Apple-server， 她 的 这 边 有 一 棵 长 满 苹 果 的 苹果 树 ， 她 愿意 

随时 把 苹果 给 另 一 名 想 要 苹果 的 妇女 。 另 一 边 的 妇女 名 叫 Apple-eater， 喜 欢 吃 苹果 ， 但 她 没有 苹果 

树 。 事 实 上 ，Apple-eater 吃 苹果 的 速率 是 固定 的 (一 天 一 个 苹果 能 保持 健康 ) ， 如 果 她 的 速率 比 这 个 

速率 快 ， 则 会 生病 ; 如 果 比 这 个 速率 慢 ， 则 会 营养 不 良 。 这 两 名 妇女 都 不 能 说 话 ， 问 题 是 Apple-eater 

怎样 适时 地 从 Apple-server 那里 得 到 苹果 。 

(a) 假设 在 篇 多 的 项 上 有 一 只 警钟 ， 它 有 多 个 报警 的 设置 。 怎 样 使 用 警钟 来 解决 这 个 问题 ， 画 出 时 序 
图 来 说 明 方 案 。 

(b) 现在 假设 没有 警钟 ， 但 Apple-eater 有 一 面 旗 ， 当 她 需要 苹果 时 能 挥动 它 。 请 提出 来 一 个 新 的 解 
决 方案 。 如 果 Apple-server 也 有 一 面 旗 的 话 ， 有 助 于 解决 这 个 问题 吗 ? 如 果 有 ， 综 合 到 此 答案 中 ， 
讨论 这 种 方案 的 缺点 。 

(c) 现在 拿 走 旗 ， 并 假设 有 一 根 长 绳 ， 给 出 使 用 长 绳 比 问题 (b) 更 好 的 解决 方案 。 

假设 有 一 个 16 位 和 两 个 8 位 的 微 处 理 器 连接 到 系统 总 线 。 给 定 下 列 条 件 : 

(1) 所 有 的 微 处 理 器 具有 所 需 的 硬件 特性 ， 用 来 支持 各 种 类 型 的 数据 传送 : 编程 式 LO、 中 断 驱 动 式 
VO 和 DMA。 

(2) 所 有 的 微 处 理 器 有 16 位 的 地 址 总 线 。 

(3) 有 两 块 存储 板 与 总 线 相连 ， 每 块 容量 是 64KB。 设 计 者 希望 尽 可 能 地 使 用 共享 存储 器 。 

(4) 系统 总 线 最 多 支持 4 根 中 断 线 和 1 根 DMA 线 。 

所 需 的 其 他 假设 条 件 都 成 立 ， 要 求 : 

(a) 根据 线 数 和 类 型 给 出 系统 总 线 规范 。 

(b) 写 出 可 能 用 到 的 总 线 传 输 协 议 〈 即 读 - 写 、 中 断 、DMA 序列 ) 。 

(c) 描述 上 述 设备 是 怎样 连 到 系统 总 线 上 的 。 
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本 章 要 点 


。 操作 系统 (0S) 是 控制 程序 在 处 理 器 上 执行 和 管理 该 处 理 器 资源 的 软件 。 操 作 系统 具有 
许多 功能 ， 包 括 进程 调度 和 存储 管理 ， 但 这 些 功能 的 实现 离 不 开 处 理 器 硬件 的 支持 。 事 
实 上 ， 所 有 处 理 器 都 或 多 或 少 地 具备 这 种 能 力 ， 如 虚拟 存储 器 管理 硬件 和 进程 管理 硬件 。 
这 些 硬件 包括 专用 寄存 器 、 缓 冲 器 以 及 完成 基础 资源 管理 任务 的 电路 。 
操作 系统 最 重要 功能 之 一 是 进程 或 任务 的 调度 ， 操 作 系统 决定 在 给 定时 间 内 运行 哪个 进 
程 。 一 般 情况 下 ,硬件 不 断 中 断 运行 进程 ， 使 操作 系统 做 出 新 的 调度 裁决 ， 从 而 使 处 理 
器 时 间 被 几 个 进程 公平 分 配 。 
操作 系统 的 另 一 个 重要 功能 是 存储 管理 。 大 多 数 当 代 操 作 系统 都 包含 虚拟 存储 器 的 功能 ， 
虚拟 存储 器 有 两 个 优点 :1) 进程 在 主 存 中 运行 时 不 需要 将 程序 的 全 部 指令 和 数据 一 次 
性 地 装 入 主 存 ;(2) 程序 可 用 的 总 存储 空间 可 以 大 大 超过 系统 实际 的 主 存 容量 。 虽 然 存 
储 管理 是 用 软件 完成 的 ， 但 操作 系统 依赖 于 处 理 器 中 的 硬件 支持 ， 包 括 分 页 管理 硬件 和 
分 段 管理 硬件 。 

尽管 此 书 的 重点 是 计算 机 硬件 ， 但 软件 中 的 一 大 领域 一 计算 机 操作 系统 必须 要 说 明 。 操 
作 系统 是 一 个 管理 计算 机 资源 ， 为 程序 员 提供 服务 以 及 调度 其 他 程序 执行 的 系统 软件 。 理 解 操 
作 系统 对 于 理解 CPU 控制 计算 机 系统 的 机 制 有 很 重要 的 意义 。 特 别 是 ， 它 能 很 好 地 解释 中 断 的 
作用 和 存储 器 层次 结构 的 管理 。 l 

本 章 首先 概述 操作 系统 及 其 简 史 ， 然 后 详细 介绍 与 计算 机 组 成 和 体系 结构 密切 相关 的 操作 
系统 的 两 大 功 


8.1 操作 系统 概述 


8.1.1 操作 系统 的 目标 与 功能 

操作 系统 是 一 种 控制 应 用 程序 运行 和 在 计算 机 用 户 与 计算 机 硬件 之 间 提 供 接口 的 程序 ， 它 
有 两 个 目标 : 

。 方便 : 操作 系统 使 计算 机 使 用 起 来 更 方便 。 

。 有 效 : 操作 系统 允许 计算 机 系统 的 资源 以 有 效 

的 方式 使 用 。 

下 面 依次 探讨 操作 系统 的 这 两 个 方面 。 

1. 操作 系统 提供 用 户 与 计算 机 之 间 的 接口 

为 用 户 提供 各 种 应 用 服务 的 软 硬 件 可 以 划分 为 不 
同 的 层次 ， 如 图 8-1 所 示 。 这 些 应 用 程序 的 用 户 (最 
终 用 户 ) 通常 不 关心 计算 机 的 体系 结构 ， 因 此 最 终 用 
户 将 计算 机 系统 看 成 是 一 个 应 用 系统 。 它 可 以 用 程序 
设计 语言 描述 ， 并且 由 应 用 程序 员 开 发 。 开 发 一 组 机 


器 指令 构成 的 应 用 程序 来 完全 负责 计算 机 硬件 的 管理 ， We 
这 是 一 个 极为 复杂 的 任务 ， 为 了 简化 这 个 任务 ， 提 供 


了 一 组 系统 程序 ， 其 中 一 些 系 统 程序 称 为 实用 程序 。 图 8-1 计算 机 系统 的 布局 和 视图 
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这 些 程序 通常 用 于 程序 创建 、 文 件 管理 和 IO 设备 控制 。 程 序 员 借助 系统 程序 开发 应 用 程序 ， 并 
在 运行 应 用 程序 时 调用 系统 程序 以 执行 某 些 功能 。 最 重要 的 系统 程序 是 操作 系统 ， 操 作 系 统 对 
程序 员 屏 蔽 硬件 细节 ， 为 程序 员 使 用 计算 机 系统 提供 方便 的 接口 。 它 作为 一 个 中 间 软 件 ， 使 程序 
员 和 应 用 程序 都 十 分 容易 访问 和 使 用 系统 提供 的 资源 和 服务 。 

通常 ， 操 作 系统 主要 提供 以 下 服务 : 

。 程序 创建 : 操作 系统 提供 了 各 种 工具 和 服务 ， 如 编辑 器 和 调试 器 ， 帮 助 程序 员 创 建 程序 。 
这 些 工 具 通常 以 实用 程序 的 形式 出 现 ， 实 际 上 并 不 是 操作 系统 的 一 部 分 ， 但 可 以 通过 操 
作 系 统 来 使 用 。 
程序 执行 : 执行 一 个 程序 需要 完成 许多 任务 。 必 须 将 指令 和 数据 调 人 主 存 ， 必 须 初 始 化 
VO 设备 和 文件 ， 以 及 必须 准备 好 其 他 资源 等 。 操 作 系 统 为 用 户 处 理 所 有 这 些 事情 。 
FR VO 设备 : 每 个 IO 设备 都 有 其 特定 的 指令 集 或 控制 信号 。 操 作 系 统 负责 处 理 这 些 
细节 ， 以 便 程序 员 只 需 考 虑 简单 的 设备 读 和 写 操作 。 
文件 的 存 取 控制 : 实现 文件 的 存 取 控制 需要 深入 了 解 VO 设备 〈 磁 盘 驱 动 器 、 磁 带 机 ) 
的 属性 和 存储 介质 上 文件 的 存储 格式 。 操 作 系统 负责 管理 这 些 细节 ， 而 且 对 于 多 用 户 系 
统 ， 操 作 系 统 还 要 提供 控制 文件 存 取 的 保护 机 制 。 
系统 存 取 : 在 共享 或 公共 系统 中 ， 操 作 系 统 控 制 对 整体 或 特定 系统 资源 的 存 取 ， 必 须 提 
供 对 资源 和 数据 的 保护 ， 防 止 未 授权 的 访问 ,解决 共享 资源 的 访问 冲突 。 
错误 检查 和 响应 : 在 计算 机 系统 的 运行 时 可 能 出 现 各 种 错误 ， 既 包括 如 存储 器 错 、 设 备 
故障 或 失效 之 类 的 内 部 和 外 部 硬件 错误 ， 也 包括 如 算术 溢出 、 企 图 存 取 禁止 的 内 存 地 址 
以 及 未 授权 的 应 用 请 求 之 类 的 各 种 软件 错误 。 出 错时 ， 操 作 系 统 必 须 响应 并 消除 错误 条 
件 ， 尽 量 减少 对 应 用 程序 运行 的 影响 。 响 应 的 方法 有 终止 出 错 程序 、 重 试 和 简单 报告 错 
误 等 。 
统计 : 好 的 操作 系统 应 该 能 统计 各 种 资源 的 使 用 情况 ， 并 能 监督 各 性 能 参数 ， 如 响应 时 
间 。 对 于 任何 系统 ， 这 些 信 息 为 将 来 增加 系统 功能 和 改善 系统 性 能 提供 了 有 益 的 参考 。 
对 于 多 用 户 系 统 ， 这 些 信息 还 可 用 作 计 费 账单 。 

2. 操作 系统 作为 资源 管理 器 

计算 机 是 一 组 具有 传送 、 存 储 和 处 理 数据 并 控制 这 些 功能 的 资源 ， 而 操作 系统 负责 管理 这 
些 资源 。 

我 们 能 否 说 是 操作 系统 在 控制 数据 的 传送 、 存 储 和 处 理 呢 ? 从 某 种 程度 上 来 说 ， 答 案 是 肯定 
的 。 通 过 管理 计算 机 的 资源 ， 操 作 系统 控制 计算 机 的 基本 功能 ， 而 且 这 种 控制 是 以 独特 的 方式 进 
行 的 。 通 常 ， 控 制 机 构 对 受 控 对 象 来 讲 是 外 部 的 ， 或 至 少 是 与 受 控 对 象 分 离 的 独立 部 分 〈 例 如 ， 
住宅 供 热 系统 由 恒温 器 控制 ， 它 完全 不 同 于 热 产 生 和 热 传 送 装置 ) 。 而 操作 系统 则 不 同 ， 操 作 系 
统 作为 控制 机 构 在 两 个 方面 很 独特 : 

。 操作 系统 功能 的 实现 与 普通 的 计算 机 软件 相同 ， 也 就 是 说 ， 它 是 由 处 理 器 执行 的 程序 。 

© 操作 系统 经 常 放弃 控制 权 ， 并 必须 依赖 处 理 器 的 启用 而 重新 获得 控制 权 。 

事实 上 ， 操 作 系统 只 不 过 是 一 个 计算 机 程序 ， 和 其 他 计算 机 程序 一 样 ， 它 为 处 理 器 提供 指 
令 。 两 者 主要 的 区 别 在 于 程序 的 目的 不 同 ， 操 作 系统 指导 处 理 器 使 用 其 他 系统 资源 并 为 其 他 程 
序 的 执行 定时 。 但 是 为 了 完成 上 述 任务 ， 处 理 器 必须 停止 执行 操作 系统 而 去 执行 其 他 程序 。 因 
此 ， 操 作 系统 放弃 控制 ， 让 处 理 器 做 一 些 “ 有 用 的 ”工作 ， 然 后 恢复 控制 一 段 时 间 ， 使 处 理 器 
有 足够 的 时 间 为 下 一 步 工作 做 准备 。 随 着 本 章 的 深入 ， 这 一 机 制 将 逐渐 清晰 。 

图 8-2 给 出 了 操作 系统 管理 的 主要 资源 。 操 作 系 统 中 的 一 部 分 在 主 存 中 ,包括 操作 系统 内 
B, 或 者 称 为 核 ， 它 包含 操作 系统 中 使 用 最 频繁 的 功能 ， 以 及 目前 正在 使 用 的 功能 。 还 有 一 部 分 
操作 系统 正在 使 用 。 主 存 的 其 余部 分 用 于 存放 用 户 程序 和 数据 。 我 们 将 看 到 ， 主 存 中 的 这 些 资源 
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分 配 由 操作 系统 和 处 理 器 中 的 存储 管理 部 件 联合 控制 。 操 作 系 统 决 定 什 么 时 候 1O 设备 被 某 个 可 
执行 程序 使 用 ， 并 控制 文件 的 存 取 和 使 用 。 处 理 器 自身 也 是 一 种 资源 ， 操 作 系统 必须 决定 分 配 多 
少 处 理 器 时 间 给 用 户 程序 。 在 多 处 理 器 系统 中 ， 操 作 系 统 还 要 对 所 有 处 理 器 进行 裁决 。 





1/0 设 备 
人) 打印 机 、 键 盘 


一 一 一 一 一 >( 〇 数字 照相 机 等 


图 8-2 ”操作 系统 作为 资源 管理 器 


8.1.2 ”操作 系统 的 类 型 


根据 不 同 的 特性 可 以 将 操作 系统 分 类 ， 分 类 方式 有 两 种 。 一 种 是 把 操作 系统 分 成 批 处 理 和 
交互 式 处理 。 在 交互 式 系统 中 ， 用 户 或 程序 员 通常 用 键盘 或 显示 器 终端 直接 与 计算 机 交互 ， 请 求 
执行 一 个 作业 或 处 理 一 个 事务 。 而 且 用 户 可 以 根据 应 用 程序 的 性 质 ， 在 作业 执行 期 间 与 计算 机 
通信 。 批 处 理 系统 与 交互 式 系统 相反 ， 许 多 用 户 程序 打包 后 由 计算 机 操作 员 成 批 提交 处 理 ， 程 序 
处 理 结 束 后， 打印 处 理 结果 。 单 纯 的 批 处 理 系统 目前 用 得 很 少 ， 然 而 ， 简 单 地 了 解 批 处 理 系 统 对 
了 解 现代 操作 系统 是 有 帮助 的 。 

另 一 种 分 类 是 看 系统 是 否 采用 了 多 道 程序 设计 。 多 道 程序 设计 系统 通过 让 处 理 器 一 次 处 理 
多 个 程序 ， 使 处 理 器 尽 可 能 地 忙碌 。 将 多 个 程序 同时 装 入 主 存 ， 人 处 理 器 迅速 地 在 它们 中 间 进 行 切 
换 。 另 外 一 种 是 单 道 程序 设计 系统 ， 处 理 器 一 次 只 运行 一 个 程序 。 

1. 早期 的 系统 

最 早 的 计算 机 出 现在 20 世纪 40 年 代 末 到 50 年 代 中 期 ， 那 时 没有 操作 系统 ， 程 序 员 直 接 与 
计算 机 硬件 交互 。 控 制 台 控制 机 器 运行 ， 它 由 指示 灯 、 触 发 器 、 输 入 设备 和 打印 机 组 成 。 输 入 设 
备 〈 如 卡片 机 ) 装 入 机 器 代码 程序 ， 如 果 程 序 出 错 中 止 ， 则 指示 灯 指 示 错 误 状 态 。 程 序 员 便 不 
得 不 着 手 检 查 寄存 器 和 主 存 ， 以 确定 出 错 原因 。 如 果 程 序 最 终 能 够 正常 完成 ， 则 结果 由 打印 机 打 
印 输出 。 

早期 的 系统 存在 两 个 主要 问题 : 

。 WE: 通常 ， 用 户 可 以 签约 一 段 时 间 ， 如 数 个 半 小 时 ， 等 等 。 如 果 用 户 签约 了 1 小 时 ， 

而 实际 只 用 了 45 分 钟 完 成 任务 ， 这 就 浪费 了 处 理 器 的 时 间 。 另 外 ， 如 果 用 户 遇 到 问题 ， 
则 在 分 配 的 时 间 内 不 能 完成 ， 只 能 停止 任务 的 执行 ， 等 解决 问题 后 再 去 执行 该 任务 。 
。 安装 时 间 : 一 个 单一 程序 称 为 作业 ， 一 个 作业 的 完成 分 为 多 个 步骤 : 把 编译 程序 和 高 级 


cin 


语言 程序 (MEF) 装 人 内存 ,保存 已 编译 的 程序 (目标 程序 )， 然 后 连接 目标 程序 和 
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库 函 数 。 每 一 步 都 要 安装 或 印 下 磁带 或 卡片 组 。 如 果 出 错 ， 用 户 只 得 从 头 开 始 重新 安装 
一 遍 ， 于 是 ， 大 量 的 时 间 浪 费 在 程序 安装 上 。 

这 种 操作 模式 称 为 串 行 处 理 ， 即 用 户 必 须 按 顺序 使 用 计算 机 。 后 来 ， 人 们 开发 出 了 各 种 系统 
软件 工具 ， 试 图 提高 串 行 处 理 的 效率 ， 包 括 公共 函 数 库 、 连 接 库 、 装 载 程序 、 调 试 程序 和 IO OK 
动 程序 ， 它 们 作为 共享 软件 可 被 所 有 用 户 使 用 。 

2. 简单 的 批 处 理 系统 

早期 的 处 理 器 非常 昂贵 ， 因 此 最 大 化 处 理 器 的 利用 率 是 很 重要 的 ， 因 调度 和 安装 而 浪费 时 
间 是 不 允许 的 。 

为 了 提高 利用 率 ， 人 们 开发 了 简单 的 批 处 理 系统 。 这 种 系统 也 称 为 监控 程序 ， 用 户 不 再 直接 
操作 机 器 ， 而 是 将 作业 提交 在 卡片 上 或 磁带 上 ， 由 计算 机 操作 人 员 按 顺序 把 作业 成 批 地 放 在 一 
起 ， 然 后 放 到 输入 设备 上 ， 最 后 由 监控 程序 执行 这 些 任务 。 

为 了 理解 这 种 工作 机 制 ， 我 们 从 监控 程序 和 处 理 器 两 个 方 
面 来 讨论 。 从 监控 程序 的 角度 看 ， 它 控制 事件 的 发 生 顺 序 ， 为 
此 监控 程序 的 大 部 分 必须 驻 留 在 主 存 中 ， 并 随时 可 执行 (如 图 
8-3 所 示 ) ， 这 部 分 监控 程序 称 为 常 驻 监控 程序 。 其 他 的 监控 程 
序 在 任务 开始 执行 时 作为 子 函 数 给 用 户 提供 基本 的 功能 和 服 
务 。 监 控 程 序 每 次 从 输入 设备 (典型 的 有 卡片 阅读 机 和 磁带 
机 ) 读 人 一 个 作业 。 读 人 时 ， 当 前 作业 调和 人 用 户 程序 区 ,并 对 
它 进行 控制 ， 作 业 完 成 后 ， 控 制 权 交 回 给 监控 程序 以 读 人 下 一 #7 
个 作业 ， 然 后 打印 出 每 个 作业 结果 给 用 户 。 

现在 ， 从 处 理 器 的 角度 来 看 这 个 执行 序列 。 在 某 个 特定 时 
间 ， 处 理 器 执行 主 存 中 包括 监控 程序 在 内 的 部 分 指令 ， 这 些 指 
令 读 入 下 一 个 作业 到 主 存 的 另 一 部 分 单元 中 ， 作 业 读 入 后 ， 处 
理 器 遇 到 监控 程序 的 分 支 指令 ， 指 示 处 理 器 去 继续 执行 用 户 程 
序 首 地 址 处 的 程序 。 然 后 ， 处 理 器 执行 用 户 程序 中 的 指令 ， 直 l 
到 结束 或 出 现 错误 ， 这 时 处 理 器 从 监控 程序 读 取 下 一 条 指令 。 | 
因此 ， 惯 用语“ 对 作业 进行 控制 ”表示 处 理 器 正在 读 取 和 执行 ”图 8.3 常 驻 监控 程序 的 内 存 分 布 
用 户 程序 中 的 指令 ,而 “返回 到 监控 程序 控制 ”表示 处 理 器 正 
在 读 取 和 执行 监控 程序 中 的 指令 。 

很 显然 ， 监 控 程序 处 理 了 调度 问题 。 将 一 批 作业 排 好 序 ， 并 尽快 地 执行 作业 ， 从 而 不 会 浪费 
处 理 器 的 时 间 。 

作业 安装 时 间 呢 ? 监控 程序 也 能 处 理 好 作业 安装 问题 。 对 于 每 个 作业 ， 指 令 包含 在 作业 控制 
语言 (job control language, JCL) 中 ， 这 是 提供 给 监控 程序 的 一 种 特殊 的 程序 设计 语言 ， 例 如 ， 
用 户 提交 一 个 用 FORTRAN 语言 书写 的 程序 以 及 相关 的 一 些 数据 ， 每 一 条 FORTRAN 指令 和 每 一 
个 数据 都 在 一 个 单独 的 卡片 或 者 磁带 记录 区 中 。 除 了 FORTRAN 程序 和 数据 卡片 外 ， 卡 片 组 中 还 
包括 作业 控制 指令 ， 用 起 始 符 “ $ ”表示 。 整 个 程序 有 如 下 格式 : 


$ JOB 
$ FTN 








| FORTRAN 指令 


$ LOAD 
$ RUN 


| se 


$ END 
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执行 这 个 作业 时 ， 监 控 程序 读 到 $ FTN 行 ， 并 将 相应 的 编译 程序 从 海量 存储 器 (通常 是 磁 
带 机 ) 中 取 来 装载 。 编 译 程序 将 用 户 程序 翻译 成 目标 代码 ， 并 存 于 内 存 或 海量 存储 器 上 ， 如 果 
存 于 内 存 ， 则 此 操作 过 程 称 为 “编译 、 装 载 和 运行 "; 如 果 是 存 于 磁带 ， 则 需要 $ LOAD 指令 ， 
监控 程序 读 取 该 指令 ， 在 编译 操作 完成 之 后 重新 取得 程序 控制 权 ， 它 调用 装载 程序 ， 将 目标 代码 
装 和 内存 替代 编译 程序 ， 并 将 控制 权 传送 给 目标 代码 。 这 样 ， 大 段 的 主 存 可 被 几 个 不 同 的 子 系统 
共享 ， 虽 然 一 次 只 能 有 一 个 子 系统 驻 留 于 主 存 并 被 执行 。 

可 以 看 出 ， 监 控 程 序 和 批 处 理 操作 系统 就 是 简单 的 计算 机 程序 ， 它 借助 于 处 理 器 从 主 存 各 
单元 获取 指令 以 达到 获取 和 放弃 控制 权 交替 进行 的 目的 ; 同时 它 也 需要 其 他 硬件 的 支持 : 

。 存储 器 保护 : 当 用 户 程序 正在 执行 时 ， 禁 止 修改 含有 监控 程序 的 存储 器 单元 。 和 否则 ， 处 

理 器 硬件 将 检测 到 错误 ， 并 把 控制 权 交 付 给 监控 程序 。 监 控 程 序 停止 执行 这 个 作业 ， 然 
后 打印 出 错 信息 ， 并 装载 下 一 个 作业 。 

。 定时 器 : 定时 器 用 来 避免 单个 作业 独占 系统 。 它 在 每 个 作业 开始 执行 时 设置 ， 如 果 时 间 
到 ， 则 出 现 一 个 中 断 ， 并 且 将 控制 权 返 还 监控 程序 。 

。 特权 指令 : 特权 指令 只 能 被 监控 程序 执行 。 如 果 处 理 器 在 执行 用 户 程序 时 遇 到 特权 指令 ， 
则 会 产生 一 个 错误 中 断 。 特 权 指令 包括 了 IO 指令 ， 因 此 监控 程序 保留 对 所 有 IO 设备 
的 控制 权 ， 这 避免 了 用 户 程序 偶然 地 从 下 一 个 作业 中 读 取 作 业 控制 指令 。 如 果 用 户 程序 
想 要 执行 VO 指令 ， 则 必须 请 求 监 控 程 序 来 执行 该 指令 。 如 果 处 理 器 在 执行 用 户 程序 时 
遇 到 了 特权 指令 ， 则 处 理 器 硬件 认为 出 现 了 错误 ， 并 把 控制 权 转 交 给 监控 程序 。 

。 中断: 早期 的 计算 机 不 具备 中 断 功能 。 中 断 使 操作 系统 更 方便 地 挂 起 和 获得 控制 权 。 

处 理 器 交替 执行 用 户 程序 和 监控 程序 ， 这 就 存在 两 个 开销 : 一 是 监控 程序 占用 一 些 主 存 ; 另 
一 个 是 监控 程序 占用 了 一 些 处 理 器 时 间 。 这 两 部 分 都 属于 系统 开销 ， 尽 管 如 此 ， 简 单 的 批 处 理 系 
统 仍 提高 了 计算 机 的 利用 率 。 

3. 多 道 程序 批 处 理 系 统 

尽管 简单 的 批 处 理 操作 系统 提供 了 自动 作业 序列 ， 但 处 ee ga 
理 器 仍 经 常 空闲 ， 问 题 就 是 O 设备 的 速度 比 处 理 器 要 慢 。 | 执行 100 条 指令 
图 8-4 详 述 了 一 个 典型 的 计算 ， 它 考虑 的 程序 处 理 一 个 文件 | 向 文件 写 一 个 记录 
记录 并 且 平均 每 个 记录 需 执行 100 条 机 器 指令 ， 此 例 中 , 计 | &  ， 

算 机 花费 96% 以 上 的 时 间 等 待 VO 设备 传送 数据 ! 图 8-5a | CPU PURI = 57 =0.032 =3.2% 
描述 了 这 个 过 程 。 处 理 器 运行 一 段 时 间 直 到 它 到 达 一 个 /0 EPE eree 
指令 便 停止 ， 然 后 它 必须 一 直 等 待 直 到 IO 指令 结束 。 

这 种 低 效率 是 可 以 避免 的 ， 我 们 知道 ， 必 须 有 足够 的 存储 空间 来 装载 操作 系统 ( 常 驻 监控 
程序 ) 和 一 个 用 户 程 序 。 假 设 存储 空间 足够 装载 操作 系统 和 两 个 用 户 程序 ， 那么 当 一 个 作业 需 
等 待 /0 时 ， 处 理 器 可 以 转 去 处 理 另 一 个 作业 ， 而 不 必 等 待 WO (如 图 8-5b 所 示 ) 。 此 外 ， 可 以 
扩充 内 存 来 装载 3 个 、4 个 或 更 多 的 程序 ， 并 在 它们 中 切换 处 理 (如 图 8-5c 所 示 ) 。 这 种 技术 称 
为 多 道 程序 设计 或 多 任务 化 ， 它 是 现代 操作 系统 的 中 心 议题 。 

例 8.1 为 了 理解 多 道 程序 设计 的 优点 ， 我 们 来 看 一 个 例子 。 假 设 某 计算 机 有 250MB 的 可 用 
存储 空间 (不 被 操作 系统 使 用 ) 、1 个 磁盘 、! 台 终 端 和 1 台 打 印 机 ， 同 时 提交 了 3 个 程序 JOB1、 
JOB2 和 JOB3,， 表 8-1 列 出 了 它们 的 资源 需求 情况 。 假 设 JOB2 和 JOB3 需要 最 少 的 处 理 需 求 ， 
JOB3 需要 连续 使 用 磁盘 和 打印 机 。 如 果 是 单 道 程序 设计 环境 ， 这 些 作业 将 顺序 执行 。 因 此 ，JOB1 





日 术语 “多 任务 化 ”有 时 专用 于 指 同一 程序 中 可 被 处 理 器 并 发 处 理 的 多 个 任务 ， 而 术语 “多 道 程序 设计 ”是 指 来 自 
多 个 程序 的 多 个 过 程 。 但 更 经 常 的 是 将 这 两 个 术语 等 价 使 用 ， 正 如 大 多 数 标准 字典 中 的 一 样 (例如 ，IEEE Std 
100-1992, The New IEEE Standard Dictionary of Electrical and Electronics Terms) 。 
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用 5 分 钟 完成 ; JOB2 等 待 5 分 钟 后 执行 ， 然 后 用 了 15 分 钟 完成 ; JOB3 在 20 分 钟 后 开始 ， 从 提 
交 到 作业 完成 花 了 30 分 钟 。 平 均 的 资源 利用 率 、 吞 吐 量 和 响应 时 间 在 表 8-2 所 示 的 单 道 程序 设 
计 栏 中 表示 。 每 个 设备 的 利用 率 在 图 8-6a 中 表示 。 很 明显 ， 当 平均 周期 时 间 是 30 分 钟 时 ， 所 有 
资源 总 的 利用 率 很 低 。 














程序 A “| 运行 等 待 运行 等 待 





AlBie| “fF [a 





时 间 LATENT | 
c) 有 三 个 程序 的 多 道 程序 
图 8-5 多 道 程序 举例 


E Sess _ 882 多 道 程序 设计 对 资源 利用 率 的 影响 
作业 ! 作业 2 ek 单 道 程序 设计 。“ 多 道 程序 设计 
作业 类 型 计算 密集 vo 密集 VO 密集 处 理 器 利用 率 20% 40% 
存储 器 利用 率 33% 67% 
i ps eee 磁盘 利用 率 33% é 
E o 7% 
存储 需求 50M 100M 80M 
打印 机 利用 率 33% 67% 
需要 磁盘 ? a 否 是 pir k 
需要 终端 ? 否 是 5 用 时 间 分 钟 15 分 钟 
需要 打印 机 ? 否 否 是 FR 6 份 作业 /小 时 12 份 作业 /小 时 
A ee ee a O 


现在 假设 3 个 作业 在 多 道 程序 设计 操作 系统 下 并 发 运行 。 因 为 在 这 些 作业 中 几乎 无 资源 竞 
争 ， 当 3 个 作业 共存 于 计算 机 中 时 ， 运 行 时 间 可 以 实现 最 小 化 〈 假 设 JOB2 和 JOB3 分 配 了 足够 
的 处 理 器 时 间 用 于 输入 和 输出 操作 ) 。JOB1 仍 需要 5 分 钟 完 成 , 但 这 时 ，JOB2 已 完成 了 它 1/3 
的 作业 ，JOB3 完成 了 它 一 半 的 作业 ， 所 有 这 3 个 作业 在 15 分 钟 内 完成 。 从 表 8-2 所 示 的 多 道 程 
序 设计 一 栏 及 图 8-6b 所 示 的 直方 图 中 可 以 看 到 性 能 有 明显 的 改善 。 
”和 简单 的 批 处 理 系统 一 样 ， 多 道 程序 设计 的 批 处 理 系 统 也 必须 依赖 于 计算 机 的 硬件 特性 ， 
多 道 程序 设计 最 显著 的 附加 特点 是 其 硬件 支持 VO 中 断 和 DMA。 有 了 中 断 驱动 VO 或 DMA 功 
能 ， 处 理 器 能 为 一 个 作业 发 送 一 个 VO 命令 ， 并 继续 执行 男 一 个 作业 ，LO 操作 由 设备 控制 器 执 
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47. 4 VO 操作 完成 时 ， 处 理 器 被 中 断 ， 转 而 执行 中 断 处 理 程序 ， 然 后 操作 系统 再 去 控制 男 一 个 
作业 。 











Wi 
a) 单 道 程序 b) 多 道 程序 


图 8-6 利用 率直 方 图 


与 单一 程序 或 单 道 程序 设计 系统 相 比 ， 多 道 程 序 设 计 的 操作 系统 要 复杂 得 多 。 作 业 运 行 前 
必须 存 人 人 内存， 需要 存储 管理 机 制 。 此 外 ， 如 果 有 几 个 作业 准备 就 绪 ， 则 处 理 器 必须 决定 先 运 行 
哪 一 个 ， 这 就 需要 调度 算法 。 这 些 概念 在 本 章 后 面 将 进行 讨论 。 

4. 分 时 系统 

随 着 多 道 程序 设计 的 使 用 ， 批 处 理 方法 显得 非常 有 效 。 然 而 ， 许 多 作业 需要 用 户 与 计算 机 直 
接 交 互 ， 例 如 一 些 事务 处 理 的 作业 ， 必 须 采 用 交互 模式 。 

现在 ， 通 常 采 用 专用 的 微型 计算 机 作为 交互 式 计 算 设备 。 在 20 世纪 60 年 代 ， 由 于 许多 计算 
机 体积 大 且 价格 昂贵 ， 采 用 专用 微型 计算 机 来 实现 交互 式 是 不 可 选 的 ， 因 此 ， 分 时 系统 应 运 
而 生 。 

正 像 多 道 程序 设计 允许 处 理 器 一 次 处 理 多 个 批量 作业 一 样 ， 多 道 程序 也 能 同时 处 理 多 个 交 
互 式 作业 ， 即 分 时 技术 ， 它 允许 多 个 用 户 共享 处 理 器 时 间 。 分 时 系统 中 ， 多 个 用 户 通过 终端 同时 
访问 系统 ， 操 作 系 统 按 很 短 的 时 间 片 或 计算 量 来 交错 执行 每 个 用 户 程序 。 于 是 ， 若 一 次 有 个 用 
户 请 求 服务 ， 则 每 个 用 户 平均 只 看 到 计算 机 有 效 速度 的 1/n， 不计 操 作 系 统 开销 。 然 而 ， 在 人 机 
交互 时 间 相 对 较 慢 的 情况 下 ,恰当 设 计 系统 ， 其 响应 时 间 能 与 专用 系统 差不多 。 

批 处 理 的 多 道 程序 设计 和 分 时 系统 都 采用 多 道 程序 设计 ， 它 们 的 主要 区 别 在 表 8-3 中 列 出 。 


8-3 ” 批 处 理 多 道 程 序 设计 和 分 时 系统 的 比较 
批 处 理 多 道 程序 设计 分 时 系统 


主要 目标 处 理 器 利用 率 最 大 响应 时 间 最 小 
对 操作 系统 的 源 指令 作业 提供 的 作业 控制 语言 命令 在 终端 上 输入 的 命令 
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8.2 调度 

多 道 程序 的 关键 是 调度 。 事 实 上 ,调度 有 4 种 典型 的 类 型 (如 表 8-4 所 示 ) ， 在 此 我 们 将 说 
明 这 些 类 型 。 首 先 介绍 一 个 概念 : 进程 。 这 个 术语 在 20 世纪 60 年 代 首次 由 Multics 操作 系统 的 
设计 者 提出 ， 在 某 种 程度 上 讲 ， 它 是 比 “ 作 业 ” 更 通用 的 术语 。 对 于 术语 进程 ， 已 经 有 许多 定 
义 , 包括 : 一 个 运行 的 程序 、 程 序 的 “ 活 灵 魂 ”、 人 处 理 器 分 配 的 实体 。 

随 着 我 们 讨论 的 深入 ， 进 程 的 概念 将 变 得 越 来 越 清楚 。 

















表 8-4 调度 类 型 
长 期 调度 决定 添加 到 待 执行 的 进程 池 中 的 进程 数 
中 期 调度 决定 添加 到 主 存 的 进程 数 〈 可 全 部 或 部 分 在 主 存 中 ) 
短期 调度 决定 处 理 器 将 执行 哪个 进程 
VO 调度 决定 哪个 进程 未 决 的 VO 请 求 将 被 VO 设备 处 理 
8.2.1 长 期 调度 


长 期 调度 确定 哪些 程序 提交 给 系统 处 理 ， 因 此 ， 它 控制 多 道 程序 设计 的 深度 ( 内存 中 的 进 
程 数 ) 。 一 旦 提交 ， 作 业 或 用 户 程 序 就 成 为 进程 ， 并 加 入 到 短期 调度 的 队列 中 。 在 某 些 系统 中 ， 
新 建 的 进程 处 于 换 出 状态 ， 此 时 ， 它 们 会 加 入 到 中 期 调度 的 队列 中 。 

在 批 处 理 系统 或 通用 操作 系统 的 批 处 理 部 分 中 ， 新 提交 的 作业 保存 在 磁盘 上 ， 并 在 批 处 理 
队列 中 。 长 期 调度 程序 从 该 队列 创建 进程 ， 这 有 两 个 决定 性 的 因素 : 第 一 ， 调 度 程 序 必须 确定 操 
作 系 统 能 运行 一 个 或 多 个 额外 的 进程 。 第 二 ， 调 度 程序 必须 决定 接受 哪 一 个 作业 或 作业 组 ， 并 把 
它 转换 成 进程 。 采 用 的 标准 可 以 包含 优先 级 、 预 期 执行 时 间 和 IO 需求。 

对 于 分 时 系统 中 的 交互 程序 ， 当 用 户 试图 访问 系统 时 会 产生 一 个 进程 请 求 。 分 时 用 户 不 是 
简单 地 排队 和 等 待 系统 接收 它 ， 而 是 操作 系统 通过 使 用 某 种 饱和 预 决定 测量 ， 不 断 地 接收 所 有 
授权 的 用 户 ， 直 到 系统 饱和 。 此 时 ， 连 接 请 求 会 遇 到 “系统 已 满 和 以 后 再 试 ” 的 信息 。 


8.2.2 ”中 期 调度 


中 期 调度 是 8.3 节 将 介绍 的 交换 功能 的 一 部 分 。 一 般 情 况 下 ， 换 人 决策 是 基于 需要 管理 多 道 
程序 的 深度 。 在 没有 虚拟 存储 的 系统 中 ， 存 储 管理 也 是 一 个 问题 ,因此 ， 换 入 决策 要 考虑 到 换 出 
进程 的 存储 器 要 求 。 


8.2.3 短期 调度 


长 期 调度 程序 执行 相对 较 少 ， 并 且 它 只 粗 粒 度 地 判定 是 否 执行 一 个 新 的 进程 ， 以 及 调度 哪 
一 个 进程 进入 系统 。 而 短期 调度 程序 ， 也 称 为 派 遗 程序 ， 执行 频繁 ， 并 且 它 细 粒 度 地 判定 接 下 来 
运行 哪个 作业 。 

1. 进程 状态 

为 了 理解 短期 调度 程序 的 机 制 ， 我 们 需要 考虑 一 个 概念 : 进程 状态 。 在 进程 的 生命 周期 中 ， 
它 的 状态 会 变化 很 多 次 ， 任 何 时 刻 所 处 的 状况 称 为 一 个 进程 状态 。 采 用 术语 “状态 ”是 因为 在 
任何 一 种 状态 它 都 有 特定 的 状态 信息 。 通 常 ， 进 程 有 5 种 定义 的 状态 (如 图 827 所 示 ) : 

。 新 建 : 由 高 级 调度 程序 提交 一 个 程序 ， 但 此 程序 未 就 绪 。 操 作 系 统 将 为 此 程序 创建 一 个 

进程 ， 并 将 它 移 人 就 绪 状 态 。 
Ra: 进程 已 准备 就 绪 ， 正 在 等 待 处 理 器 的 执行 。 
o 运行 : 进程 正 被 处 理 器 执行 。 
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图 8-7 五 状态 进程 模型 


。 等 待 : 进程 为 等 待 一 些 系统 资源 (如 0)， 由 运行 状态 挂 起 。 

。 终止 : 进程 结束 ， 将 由 操作 系统 撤销 。 

对 于 系统 中 的 每 个 进程 ， 操 作 系 统 必 须 保 存 进 程 状 态 信息 和 进程 
执行 所 需 的 其 他 信息 。 为 此 ， 每 个 进程 在 操作 系统 中 用 一 个 进程 控制 
块 (如 图 8-8 所 示 ) KER, 通常， 进程 控制 块 (PCB) 包含 如 下 
信息 : 

。 标识 符 : 每 个 当前 进程 都 有 一 个 唯一 的 标识 符 。 

。 状态 : 进程 的 当前 状态 〈 新 建 、 就 绪 等 ) 。 

e 优先 级 : 进程 的 相对 优先 级 别 。 

。 程序 计数 器 : 要 执行 的 程序 中 的 下 一 条 指令 的 地 址 。 

。 存储 器 指针 : 进程 在 存储 器 中 的 起 始 位 置 和 结束 位 置 。 

。 现场 数据 : 进程 正在 执行 时 ， 处 理 器 寄存 器 中 的 数据 ， 它 们 将 

在 本 书 的 第 三 部 分 予以 讨论 。 目 前 ， 可 以 说 这 些 数据 表示 进程 
的 “现场 ”。 当 进程 离开 运行 状态 时 ， 要 保存 现场 数据 和 程序 
计数 器 的 值 ; 当 恢 复 执行 这 个 进程 时 ， 处 理 器 需要 读 回 这 些 
信息 。 

。 1/O 状态 信息 : 包括 未 完成 的 IO 请 求 、 分 配给 这 个 进程 的 MO 

设备 (如 磁带 机 ) 和 分 配给 进程 的 文件 列表 等 。 seo ee 

© 统计 信息 : 可 以 包括 使 用 处 理 器 的 时 间 和 时 钟 时 间 、 时 间 限 

制 、 账 户 编号 等 。 图 8-8 ”进程 控制 块 

当 调 度 程序 接收 一 个 新 的 作业 或 用 户 的 执行 请 求 时 ， 它 创建 一 个 空 的 进程 控制 块 ， 并 使 相 
关 进 程 处 于 新 的 状态 。 当 系统 填 完 PCB 后 ， 该 进程 进入 就 绪 状 态 。 

2. 调度 技术 

为 了 理解 操作 系统 是 如 何 管理 存储 器 中 各 种 作业 的 调度 问题 ， 让 我 们 首先 考虑 图 8-9 中 的 简 
单 例 子 。 该 图 表示 在 某 一 给 定时 刻 主 存 的 分 区 情况 。 当 然 ， 操 作 系统 的 内 核 常 驻 内 存 ， 另 外 ， 有 
一 些 活 动 的 进程 ， 包 括 A 和 B， 都 需要 分 配 存储 空间 。 

先 从 进程 A 正在 运行 的 这 一 时 刻 开始 考虑 ， 这 时 处 理 器 正在 执行 A 程序 的 指令 ， 后 面 几 个 
时 刻 ， 处 理 器 停止 执行 A 的 指令 ， 开 始 执 行 操作 系统 的 指令 。 这 是 由 下 列 三 种 原因 之 一 引起 的 : 

(1) 进程 A 发 送 一 个 服务 请 求 (例如 一 个 VO 请 求 ) 给 操作 系统 ， 接 着 A 处 于 挂 起 状态 ， 
直到 操作 系统 满足 这 个 请 求 为 止 。 

” (2) 进程 A 产生 一 个 中 断 ， 这 个 中 断 是 由 硬件 产生 并 发 送 给 处 理 器 的 信号 。 当 处 理 器 检测 
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到 这 个 信号 时 ， 它 停止 执行 A， 转 去 执行 操作 系统 中 的 中 断 处 理 程序 。 与 A 相关 的 各 种 事件 都 可 
以 产生 中 断 ， 一 个 简单 的 例子 是 出 错 ， 例 如 试图 执行 特权 指令 。 另 一 个 例子 是 超时 ， 为 防止 某 个 
进程 独占 处 理 器 ， 每 个 进程 只 允许 每 次 占用 处 理 器 很 短 的 时 间 。 

(3) 与 进程 A 无 关 ， 但 需 注 意 一 些 事件 会 引起 中 断 ， 例 如 一 个 VO 操作 完成 。 

无 论 何 种 原因 ， 结 果 均 如 下 。 首 先 处 理 器 保存 进程 A 控制 块 中 当前 现场 信息 和 程序 计数 器 
信息 ， 然 后 开始 运行 操作 系统 。 操 作 系 统 可 以 完成 一 些 工作 ， 例 如 初始 化 VO 操作 。 接 着 操作 系 
统 的 短期 调度 程序 决定 下 次 将 执行 的 进程 ， 此 例 中 是 B 进程 。 操 作 系 统 指示 处 理 器 恢复 B 的 现 
场 数据 ， 执 行 B 进程 。 


操作 系统 BERA au, 操作 系统 


ELEN res eee | | | me] 
中 断 管理 器 J O 中 断 管理 器 ]。 | | 中断 管理 器 





图 8-9 调度 举例 


这 个 简单 的 例子 描述 了 短期 调度 程序 的 基本 功能 。 图 8-10 表示 了 涉及 多 道 程序 设计 和 进程 
调度 的 操作 系统 中 的 主要 元 素 。 当 出 现 一 个 中 断 时 ， 操 作 系统 接收 处 理 器 的 控制 权 ， 执 行 中 断 处 
理 程 序 ; 当 出 现 一 个 服务 调用 时 ， 执 行 服务 调用 处 理 程 序 。 一 旦 中 断 或 服务 调用 处 理 完毕 ， 短 期 
调度 立即 调度 某 个 进程 进入 运行 状态 。 

为 了 实现 进程 调度 机 制 ， 操 作 系 统 需 要 维护 多 个 队列 ， 每 个 队列 都 是 一 个 简单 的 等 待 某 些 
资源 的 进程 列表 。 长 期 队列 是 等 待 系统 资源 的 作业 列表 ， 若 条 件 许 可 ， 高 级 调度 程序 将 为 等 待 的 
作业 分 配 内 存 ， 并 创建 一 个 进程 。 短 期 队列 包含 所 有 就 绪 状 态 的 进程 ， 它 们 中 某 一 个 可 能 下 次 被 
处 理 器 调用 。 短 期 调度 程序 将 从 其 中 挑选 一 个 进程 ， 通 常 采 用 轮转 算法 ， 给 每 个 进程 轮流 分 配 一 
些 时 间 ， 或 者 采用 优先 级 算法 。 最 后 ， 每 个 VO 设备 有 一 个 1/O 队列 ， 多 个 进程 可 以 请 求 使 用 相 
: 同 的 YO 设备 ， 等 待 使 用 每 个 设备 的 所 有 进程 排列 在 那个 设备 队列 中 。 

图 8-11 给 出 了 在 操作 系统 控制 下 的 进程 流程 。 每 个 进程 请 求 〈 批 作业 、 用 户 定义 的 交互 式 
作业 ) 都 被 放置 在 长 期 队列 中 ， 当 某 一 进程 的 请 求 满足 时 ， 此 进程 转 为 就 绪 状 态 并 进入 短期 队 
列 。 处 理 器 交替 执行 操作 系统 的 指令 和 用 户 程序 指令 。 当 操作 系统 获得 控制 权时 ， 它 决定 短期 队 
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来 自 进程 的 
服务 调用 


进程 的 中 断 
来 自 UO 的 中 断 





传送 控制 
到 进程 


图 8-10 ”多 道 程序 设计 的 操作 系统 的 要 素 
列 中 的 哪个 进程 下 次 将 被 执行 。 操 作 系统 完成 当前 任务 后 ， 由 处 理 器 处 理 已 选中 的 进程 。 






IO 队列 


图 8-11 处 理 器 调度 的 队列 图 


前 面 已 经 提 到 ， 正 在 执行 的 进程 由 于 一 些 原因 可 能 被 挂 起 。 如 果 挂 起 的 原因 是 进程 请 求 0 
服务 ， 则 它 会 进入 相应 的 Y0 队列 。 如 果 挂 起 的 原因 是 超时 或 操作 系统 必须 处 理 紧 急事 务 ， 则 它 
处 于 就 绪 状 态 ， 进 入 短期 队列 。 

最 后 ,需要 说 明 的 是 操作 系统 也 管理 LO 队列 。 当 一 次 1/0 操作 完成 时 ， 操 作 系统 从 IO 队 
列 中 移出 VO 请 求 得 到 满足 的 进程 ， 并 将 其 放 入 短期 队列 中 ， 然 后 它 选择 另 一 个 等 待 进程 (如 
果 有 的 话 ) ， 指 定 VO 设备 来 满足 进程 的 请 求 。 


8.3 ”存储 器 管理 


在 单 道 程序 设计 系统 中 ， 主 存 划 分 成 两 大 部 分 : 一 部 分 分 配给 操作 系统 〈 常 驻 监控 程序 ) ， 
男 一 部 分 分 配给 当前 正在 执行 的 程序 。 在 多 道 程序 设计 系统 中 ,存储器 的 “用 户 ” 存 储 区 需 进 
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一 步 细 分 供 多 个 进程 使 用 。 细 分 存储 器 的 任务 由 操作 系统 动态 地 执行 ， 并 称 为 存储 器 管理 。 

在 多 道 程序 设计 系统 中 ， 有 效 的 管理 存储 器 是 很 重要 的 。 如 果 在 存储 器 中 只 有 很 少 的 进程 ， 
进程 可 能 会 花费 很 多 时 间 来 等 待 VO 而 使 处 理 器 常 处 于 空闲 状态 。 因 此 ， 存 储 器 需要 合理 分 配 ， 
尽 可 能 让 更 多 的 进程 进入 存储 器 。 


8.3.1 交换 


再 看 图 8-11 ， 我 们 已 讨论 过 3 种 队列 : 请 求 新 进程 的 长 期 队列 、 进 程 就 绪 等 待 处理 器 的 短期 
队列 以 及 进程 未 就 绪 的 IO 队列 。 重 提 一 下 ， 这 种 处 理 方法 的 原因 是 VO 操作 比 处 理 器 计算 慢 得 
多 ， 因 此 ， 在 单 道 程序 设计 系统 中 ， 处 理 器 大 多 数 时 间 处 于 空闲 状态 。 

图 8-11 中 的 列队 不 能 完全 解决 这 个 问题 。 事 实 是 : 在 这 种 情况 下 ， 存 储 器 保存 了 多 个 进程 ， 
当 一 个 进程 等 待 时 ， 处 理 器 能 转 去 处 理 另 一 个 进程 。 但 是 处 理 器 速度 比 VO 快 得 多 ， 以 至 于 存储 
器 中 所 有 进程 总 是 在 等 待 WO 操作 。 因 此 ， 即 使 在 多 道 程序 设计 中 ， 处 理 器 仍 可 能 有 许多 时 间 处 
理 空闲 状态 。 

解决 的 方法 是 什么 ?扩充 主 存 以 能 够 容纳 更 多 的 进程 。 但 这 种 方法 有 两 个 缺点 : 首先 是 主 存 
很 贵 ， 即 使 是 现在 。 其 次 程序 对 存储 器 容量 的 需求 增长 很 快 ， 如 同 存储 器 价格 下 降 一 样 快 。 因 
此 ， 更 大 的 存储 器 扩充 导致 更 大 的 进程 ， 而 不 是 更 多 的 进程 。 

另 一 种 方法 是 交换 ， 如 图 8-12 所 示 。 有 一 个 进程 请 求 的 长 期 队列 ,通常 存储 在 磁盘 上 ， 当 
主 存 有 空间 时 ， 进 程 被 调 人 ， 每 次 调 人 一 个 ; 当 进 程 完成 时 ,移出 主 存 。 现 在 将 出 现 一 种 情况 ， 
存储 器 中 无 进程 处 于 就 绪 状 态 (例如 ， 所 有 进程 都 在 等 待 0 操作 ) 。 这 时 ， 处 理 器 不 是 保持 在 
空闲 状态 ， 而 是 把 这 些 进程 中 的 一 个 调 回 磁 盘 ， 排 入 中 间 队 列 ， 它 是 用 来 排列 临时 从 内 存 调 出 的 
进程 的 队列 。 然 后 ,操作 系 统 从 中 间 队 列 中 调 入 另 一 个 进程 ， 或 处 理 长 期 队列 中 的 一 个 新 进程 请 
求 ， 并 执行 新 到 达 的 进程 。 

然而 ， 交 换 是 一 种 VO 操作 ， 它 有 可 能 使 问题 变 坏 而 不 是 变 好 ， 但 是 ， 磁 盘 IO 通常 是 系统 
PRR YO (与 磁带 和 打印 设备 相 比 ) ， 所 以 交换 通常 能 够 提高 性 能 。 另 一 种 更 复杂 方案 是 虚 
拟 存储 器 ， 它 比 简单 的 交换 更 能 提高 性 能 ， 我 们 将 在 后 面 对 其 做 简要 的 介绍 。 接 下 来 我 们 介绍 分 
区 和 分 页 。 


磁盘 存储 器 主 存储 器 


完成 的 作业 
长 期 队列 2 和 用 户 对 话 


a) 简 单 的 作业 调度 b) 交 换 





图 8-12 ”交换 技术 的 运用 


8.3.2 分 区 
最 简单 的 分 区 机 制 是 固定 长 度 的 分 区 ， 如 图 8-13 所 示 。 注 意 ， 虽 然 分 区 是 固定 长 度 ， 但 每 
个 分 区 的 长 度 可 以 不 相等 。 当 一 个 进程 调 入 主 存 时 ,分 配给 它 一 个 能 容纳 它 的 最 小 的 分 区 。 
尽管 使 用 了 不 等 的 固定 长 度 分 区 ， 但 也 浪费 了 主 存 。 在 多 数 情况 下 ， 进 程 对 分 区 大 小 的 需求 
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不 可 能 和 提供 的 分 区 大 小 完全 一 样 ， 例 如 ， 一 个 需要 3MB 存储 空间 的 进程 将 被 放置 在 图 8-13b 


中 的 4MB 分 区 中 ， 这 就 浪费 了 能 分 配给 其 他 进程 的 


1MB 的 空间 。- 


一 种 更 有 效 的 方法 是 使 用 变 长 分 区 ， 当 一 个 进程 
调 入 主 存 时 ， 分 配 的 分 区 大 小 可 以 与 进程 所 需 的 大 小 


一 样 。 


例 8.2 图 8-14 给 出 一 个 使 用 64MB 主 存 的 例子 。 
初始 时 ， 主 存 除 了 操作 系统 占据 的 一 些 空间 外 ， 其 余 
HZ (如 图 8-14a 所 示 )。 首 先 把 3 个 进程 调 入 主 存 ， 
在 操作 系统 区 后 连续 分 配 3 个 空闲 区 给 这 3 个 进程 
(如 图 8-14b、c 和 d 所 示 ) ， 结 果 在 存储 器 尾部 留 下 
一 个 “ 空 块 ”， 因 为 它 很 小 ， 不 能 装 入 第 4 个 进程 。 
某 一 时 刻 ， 没 有 进程 进入 就 绪 状 态 。 然 后 ， 操 作 系 统 
交换 出 进程 2 (如 图 8-14e 所 示 ) ， 这 使 得 有 足够 的 空 
间 来 装载 新 进程 ， 进 程 4 (如 图 8-14f 所 示 ) 。 由 于 进 
程 4 比 进程 2 小 ,因此 又 产生 了 一 个 “ 空 块 ”。 随 后 ， 
某 一 时 刻 ， 再 次 出 现 主 存 中 的 进程 没有 一 个 进入 就 绪 
状态 的 情况 ， 而 此 时 进程 2 进入 就 绪 挂 起 状态 AW 





主 存 中 没有 足够 的 空间 给 进程 2， 于 是 操作 系统 要 先 。““ 分 区 b) 不 等 长 分 区 
换 出 进程 1 (如 图 8-14g 所 示 ) ， 再 换 入 进程 2 (如 图 ”图 8-13 64MB 存储 器 固定 分 区 举例 


8-14h 所 示 ) 。 


a) 








14M 14M 


36M 


| > 18M 





图 8-14 动态 分 区 的 效果 
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这 个 例子 表明 : 这 种 方法 开始 时 比较 好 ， 但 到 最 后 它 将 导致 在 存储 器 中 出 现 许多 小 的 空 块 。 
时 间 越 长 ， 存 储 器 中 的 碎片 就 会 越 来 越 多 ， 而 使 存储 器 的 利用 率 下 降 。 解 决 这 个 问题 的 一 种 技术 
是 紧缩 。 操 作 系 统一 次 又 一 次 地 移动 存储 器 中 的 进程 ， 把 所 有 空闲 块 放置 在 一 起 ， 组 成 一 个 块 。 
但 是 这 个 过 程 很 费时 ， 会 浪费 处 理 器 的 时 间 。 

在 考虑 克服 分 区 缺点 的 方法 前 ， 必 须 弄 清 一 个 问题 。 如 果 读者 对 图 8-14 稍 加 注意 ， 就 可 以 
看 到 ， 一 个 进程 每 次 换 和 人 时 不 可 能 分 配 到 与 上 次 相同 的 位 置 ， 而 且 如 果 采 用 紧缩 技术 ， 则 进程 在 
主 存 中 可 以 移动 。 主 存 中 的 进程 由 指令 和 数据 组 成 ， 指 令 有 两 种 类 型 的 存储 器 单元 的 地 址 : 

。 数据 的 地 址 。 

。 指令 的 地 址 用 于 转移 指令 。 

但 是 这 些 地址 是 不 固定 的 ， 进 程 每 交换 一 次 ， 地 址 都 将 发 生变 化 。 为 了 解决 这 个 问题 ， 我 们 
把 地 址 分 为 逻辑 地 址 和 物理 地 址 。 逻 辑 地 址 表示 相对 于 程序 起 始 单元 的 地 址 ， 程 序 中 的 指令 只 
包含 逻辑 地 址 。 物 理 地 址 是 主 存 中 的 实际 单元 地 址 。 当 处 理 器 执行 一 个 进程 时 ， 通 过 把 当前 进程 
的 起 始 单元 地 址 ( 称 为 基 址 ) 加 到 每 个 逻辑 地 址 上 ， 自 动 地 把 逻辑 地 址 转换 成 物理 地 址 。 这 种 
逻辑 地 址 与 物理 地 址 的 转换 机 制 也 是 为 了 满足 操作 系统 的 需求 而 对 处 理 器 硬件 特性 设计 的 男 一 
个 例子 ， 这 种 硬件 特性 的 精确 度 取决 于 使 用 的 存储 器 管理 策略 。 我 们 将 在 本 章 的 后 面 介 绍 一 些 
相关 例子 。 


8.3.3 分 页 


不 等 的 固定 长 度 分 区 和 可 变 长 度 分 区 ， 其 存储 器 的 使 用 效率 都 很 低 。 假 设 把 存储 器 分 成 相 
当 小 的 、 相 等 的 固定 长 度 的 存储 块 ， 将 每 个 进程 也 划分 成 小 的 固定 长 的 程序 块 ， 那 么 程序 的 每 个 
PPR (PRAT) 能 分 配 到 存储 器 中 可 用 的 每 个 存储 块 〈 称 为 帧 或 页 帧 ) 中 ， 于是， 存储 器 分 
配 进程 后 浪费 的 空间 最 多 只 是 最 后 一 页 的 一 小 部 分 。 

图 8-15 表示 了 一 个 使 用 页 和 页 帧 的 例子 。 在 某 一 时 刻 ， 存 储 器 中 的 一 些 帧 被 占用 ， 而 男 一 
些 帧 处 于 空 闪 状态。 空闲 帧 的 列表 由 操作 系统 维护 。 存 储 在 磁盘 上 的 进程 A 由 4 个 页 组 成 。 当 
操作 系统 装 和 这 个 进程 时 ， 它 发 现 有 4 个 空闲 帧 ， 并 把 进程 A 的 4 个 页 装 入 这 4 个 空闲 帧 中 。 






空 亲 页 帧 列表 
14 


空闲 页 帧 列表 
20 


进程 A 页 表 
38 | 





a) 装 入 进程 A 之 前 b) 装 入 进程 A 之 后 
图 8-15 ”空闲 页 帧 的 分 配方 案 
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现在 假设 在 此 例 中 ， 无 足够 的 连续 空闲 帧 存储 这 个 进程 。 这 会 妨碍 操作 系统 装 人 进程 A 吗 ? 
答案 是 否定 的 ， 我 们 可 以 再 一 次 引入 逻辑 地 址 这 一 概念 ， 只 是 简单 的 基地 址 已 经 不 够 用 了 。 操 作 
系统 为 每 个 进程 保存 一 个 页 表 ， 页 表 记 录 主 存 
了 进程 每 页 的 帧 地 址 。 在 程序 中 ， 每 个 逻 
辑 地 址 由 一 个 页 号 和 页 中 相对 地 址 组 成 。 
回忆 一 下 简单 分 区 的 情况 ， 逻 辑 地 址 是 相 
对 于 程序 起 始 地 址 的 存储 单元 地 址 ， 用 一 
个 字 表示 ， 人 处 理 器 负责 将 逻辑 地 址 转换 为 
物理 地 址 。 使 用 分 页 技术 ， 逻 辑 地 址 到 物 
理 地 址 的 转换 仍 由 处 理 器 硬件 来 完成 ， 但 
是 处 理 器 必须 知道 怎样 访问 当前 进程 的 页 
表 。 提 供 了 风 辑 地 址 (页 号 、 相 对 地 址 ) 
后 ， 处 理 器 使 用 页 表 来 产生 物理 地 址 ( 帧 
号 、 相 对 地 址 ) 。 图 8-16 显 示 了 这 样 的 一 个 
例子 。 

这 种 方法 解决 了 前 面 提 出 的 问题 。 主 
存 划 分 成 许多 小 的 大 小 相等 的 帧 ， 每 个 进 











| 一 一 


-A 的 页 0 18 








程 划分 成 与 帧 大 小 一 致 的 许多 页 。 较 小 的 图 8-16 逻辑 地 址 与 物理 地 址 
进程 需要 较 少 的 页 ， 较 大 的 进程 需要 较 多 的 页 。 当 一 个 进程 调 人 时 ， 其 页 被 装 入 空闲 帧 中 ， 并 建 
立 页 表 。 
8.3.4 虚拟 存储 器 
1. 请 求 分 页 


分 页 技术 使 多 道 程序 设计 系统 变 得 真正 有 效 ， 而 且 把 进程 分 页 这 一 简单 策略 导致 了 另 一 重 
要 概念 的 产生 一 一 虚拟 存储 器 。 
为 了 理解 虚拟 存储 器 ， 我 们 对 刚才 讨论 的 分 页 方案 进行 改进 。 改 进 的 方案 称 为 请 求 分 页 ， 即 
一 个 进程 的 每 个 页 只 有 在 需要 时 〈 即 请 求 时 ) AIBA. 
考虑 一 个 大 的 进程 ， 它 由 一 段 长 的 程序 和 许多 组 数据 组 成 。 在 任何 一 小 段 时 间 内 ， 程 序 执行 
时 只 需 使 用 其 中 的 一 小 部 分 〈 例 如 一 个 子 过 程 ) 或 一 到 两 组 数据 ， 这 就 是 局 部 性 原理 ， 它 在 附 
录 4A 中 介绍 过 。 很 显然 ， 在 程序 挂 起 之 前 只 用 到 其 中 很 少 的 页 时 ， 装 和 进程 的 全 部 页 是 一 种 浪 
费 ， 装 人 适当 的 页 才能 更 好 地 利用 主 存 。 因 此 ， 当 程序 转 去 执行 一 个 不 在 主 存 中 的 页 的 指令 ,或 
者 程序 访问 不 在 主 存 中 的 页 的 数据 时 ， 则 会 触发 页 失效 。 这 就 告诉 操作 系统 该 调 入 所 需 的 页 。 
于 是 ， 在 任何 时 候 ， 进 程 中 只 有 一 小 部 分 页 在 主 存 中 ， 因 而 可 以 使 更 多 的 进程 同时 占用 主 
存 ， 由 于 未 使 用 的 页 不 用 进行 换 和 人 换 出 操作 ， 因 此 节省 了 系统 时 间 。 然 而 ， 操 作 系统 必须 清楚 这 
种 管理 机 制 ， 当 它 调和 人 一 页 时 ， 必 须 把 另 一 页 换 出 去 ， 这 称 为 页 替换 。 如 果 它 换 出 的 页 正好 是 将 
要 使 用 的 页 ， 则 又 要 立即 把 它 调 人 主 存 ， 如 果 这 种 现象 频繁 发 生 则 称 为 拉 PENA 
动 ， 这 时 ， 处 理 器 花费 大 量 的 时 间 处 理 页 替换 而 不 是 执行 指令 。 避 免 系统 © 
拌 动 是 20 世纪 70 年 代 主要 研究 的 课题 ， 并 产生 了 许多 有 效 但 复杂 的 算法 。 
基本 上 ， 操 作 系统 是 基于 最 近 的 页 访问 历史 ， 认 为 最 近 最 少 使 用 的 页 将 来 
也 不 大 可 能 使 用 。 页 替换 算法 模拟 器 
页 替换 算法 超出 了 本 章 的 范围 ， 目 前 比较 有 效 的 技术 是 最 近 最 少 使 用 算法 (LRU) ， 在 第 4 
章 高 速 缓存 的 替换 算法 中 会 介绍 这 个 算法 。 实 际 上 ，LRU 算法 在 虚拟 存储 的 页 替换 机 制 中 很 难 
实现 ， 因 此 通常 是 使 用 一 些 性 能 近似 于 LRU 的 算法 ， 具 体 请 参见 附录 F. 
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采用 了 请 求 分 页 ， 就 没有 必要 将 整个 进程 装 入 主 存 ， 这 将 产生 一 个 惊人 的 结论 : 一 个 进程 可 
能 比 主 存 所 有 的 空间 都 大 。 程 序 设 计 中 最 基本 的 限制 之 一 已 经 被 打破 了 ， 若 不 采用 请 求 分 页 ， 则 
程序 员 必 须知 道 有 多 大 的 存储 空间 可 用 ， 如 果 编 制 的 程序 太 长 ， 程 序 员 必须 修改 结构 使 程序 变 
成 几 段 ,一 次 装 和 人 一段。 而 采用 了 请 求 分 页 ， 这 些 工作 交 给 了 操作 系统 和 硬件 去 做 ， 就 程序 员 而 
言 ， 他 所 看 到 的 是 一 个 大 的 存储 器 ， 其 容量 与 磁盘 存储 器 有 关 。 

因为 进程 只 在 主 存 中 执行 ， 所 以 主 存 被 称 为 实 存储 器 。 但 是 程序 员 或 用 户 看 到 了 一 个 大 得 
多 的 存储 器 ， 它 分 配 在 磁盘 上 ， 后 者 称 为 虚拟 存储 器 。 虚 拟 存储 器 使 多 道 程序 设计 更 为 有 效 ， 同 
时 消除 了 用 户 使 用 主 存 的 限制 。 

2. DRAW 

从 存储 器 中 读 取 一 个 字 的 基本 机 制 包 括 : 通过 页 表 把 虚拟 或 逻辑 地 址 (由 页 号 和 偏 移 量 组 
成 ) 转换 成 物理 地 址 (由 帧 号 和 偏 移 量 组 成 )。 因 为 页 表 是 可 变 长 的 ， 与 进程 长 度 有 关 ， 所 以 我 
们 不 能 期 望 将 它 存 人 寄存 器 中 ， 而 必须 将 它 存 人 主 存 中 。 图 8-16 说 明了 这 个 方案 的 硬件 实现 。 
当 运 行 一 个 特定 进程 时 ， 寄 存 器 保存 这 个 进程 页 表 的 起 始 地 址 ， 虚 拟 地 址 的 页 号 用 于 检索 页 表 
并 寻找 相应 的 帧 号 ， 它 与 虚拟 地 址 的 偏 移 部 分 结合 来 形成 物理 实地 址 。 

大 多 数 系统 中 ， 每 个 进程 对 应 一 个 页 表 ， 但 每 个 进程 能 占据 大 量 的 虚拟 存储 器 。 例 如 VAX 
体系 结构 中 ， 每 个 进程 能 拥有 高 达 2”=2GB 的 虚拟 存储 ， 使 用 2” =512B 的 页 。 这 意味 着 每 个 进 
程 需要 2 个 页 表 项 ， 显 然 ， 单 纯 分 配给 页 表 的 存储 器 容量 就 高 得 惊人 。 为 了 解决 这 个 问题 ， 许 
多 虚拟 存储 器 方案 把 页 表 存 储 在 虚拟 存储 器 中 ， 而 不 是 实 存 中 。 这 表明 对 页 表 也 要 进行 与 其 他 
页 一 样 的 分 页 。 当 一 个 进程 正在 运行 时 ， 至 少 有 一 部 分 页 表 (包括 当前 正在 运行 页 的 页 表 项 ) 
必须 在 主 存 中 。 一 些 处 理 器 使 用 二 级 方案 组 织 大 的 页 表 。 在 此 方法 中 ， 有 一 个 页 目录 ， 每 项 指向 
一 个 页 表 。 因 此 ， 如 果 页 目录 表 长 度 是 X， 每 个 页 表 的 最 大 长 度 为 Y， 则 一 个 进程 包括 XxY 页 。 
通常 一 个 页 表 的 最 大 长 度 可 以 达到 一 页 。 在 这 章 的 后 面 介绍 Pentium I 时， 我们 将 看 到 二 级 方案 
的 例子 。 

实现 一 级 或 二 级 页 表 的 男 一 种 方法 是 倒置 页 表 结构 (如 图 8-17 所 示 ) ， 这 种 办 法 的 几 种 不 同 
版 本 已 用 于 PowerPC、UltraSPARC 和 IA-64 体系 结构 。RT-PC 上 的 Mach 操作 系统 的 实现 亦 使 用 了 
这 种 技术 。 


虚拟 地 址 










控制 位 
页 号 # 进程 ID 











倒置 页 表 
(每 项 代表 一 物理 帧 ) 


图 8-17 倒置 页 表 结 构 
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在 这 种 技术 中 ， 虚 拟 地 址 的 页 号 部 分 采用 简单 的 散 列 函数 映射 到 散 列表 中 ， 散 列 值 是 一 个 
指向 由 页 表 项 组 成 的 倒置 页 表 的 指针 。 采 用 这 种 结构 ， 每 个 实 存 帧 在 散 列 表 和 倒置 页 表 中 都 有 
对 应 项 , 但 虚拟 页 不 需要 ， 因 此 ， 表 只 需要 实 存 的 固定 部 分 ， 而 不 考虑 所 支持 的 进程 数 或 虚拟 页 
数 。 因 为 多 个 虚拟 地 址 可 以 映射 到 同一 散 列表 项 ， 所 以 采用 链 技术 来 管理 溢出 ， 散 列 技术 通常 采用 
由 一 项 或 两 项 组 成 的 短 链 。 此 页 表 的 结构 称 为 倒置 ， 因 为 它 用 帧 号 而 不 是 虚拟 页 号 来 检索 页 表 项 。 


8.3.5 IR 


原则 上 ， 每 次 虚拟 存储 器 的 访问 能 引起 两 次 物理 存储 器 的 存 取 : 一 次 是 获得 相应 的 页 表 项 ， 
另 一 次 是 获得 所 需 的 数据 。 因 此 ， 即 使 一 个 简单 的 虚拟 存储 器 方案 也 将 使 存储 器 存 取 时 间 加 倍 。 
为 了 解决 这 个 问题 ， 许 多 虚拟 存储 器 方案 使 用 一 个 特殊 的 高 速 缓存 来 存放 页 表 项 ， 通 常 称 为 快 
K (TLB) 。 这 个 高 速 缓存 功能 与 存储 器 中 高 速 缓存 的 相同 ， 它 用 来 存储 最 近 使 用 的 那些 页 的 页 
表 项 。 图 8-18 描述 了 使 用 TLB 的 流程 图 。 按 照 局 部 性 原理 ， 大 部 分 虚拟 存储 器 的 访问 局 限 在 最 
近 使 用 过 的 那些 页 ， 因 此 ， 多 数 访问 都 是 此 高 速 缓存 中 记录 的 页 。 对 VAX 机 中 TLB 的 研究 表明 ， 
这 个 方案 能 有 效 地 改善 性 能 [CLAR85 ,SATY81 ] 。 






返回 到 故障 处 理 








Wee 












图 8-18 ”分 页 操作 和 快 表 (TLB) 





© 散 列 函 数 是 将 范围 0 ~ W 的 数 映射 到 范围 0 ~ NV 的 数 ， 这 里 M>N。 散 列 函数 的 输出 被 用 作为 对 散 列表 的 索引 。 因 
为 多 于 一 个 的 输入 映射 到 同一 输出 ， 因 此 可 能 存在 一 个 输入 项 映射 到 已 被 占据 的 散 列表 项 。 在 这 种 情况 下 ， 新 项 
必须 “溢出 ”到 另外 的 散 列表 位 置 上 。 一 般 来 说 ， 新 项 被 放 在 第 一 个 后 继 的 空 项 中 ， 由 原 位 置 提 供 一 个 指针 指向 
它 ， 从 而 把 它们 链接 在 一 起 。 附 录 C 提供 了 有 关 散 列 函 数 的 更 多 内 容 。 


第 8 章 ”操作 系统 支持 * 183 


注意 ， 虚 拟 存储 器 机 制 必须 与 高 速 缓存 系统 〈 不 是 TLB 的 高 速 缓存 ， 而 是 主 存 高 速 缓存 ) 
交互 ， 如 图 8-19 所 示 。 虚 拟 地 址 通常 由 页 号 和 偏 移 量 组 成 ， 首 先 存 储 器 系统 查询 TLB 是 否 有 匹 
配 的 页 表 项 ， 如 果 有 ， 则 实 (物理 ) 地 址 通过 帧 号 和 偏 移 量 组 合 产生 ; 如 果 没 有 ， 则 从 页 表 中 
取 项 。 一 旦 由 标志 项 和 剩余 项 组 成 (如 图 4-5 所 示 ) 的 实地 址 产生 ， 先 查询 高 速 缓存 中 是 否 有 包 
含 该 字 的 块 。 如 果 有 ， 字 返回 给 处 理 器 ， 反 之 ， 则 从 主 存 中 检索 此 字 。 

读者 可 能 体会 到 单个 存储 器 访问 所 涉及 的 处 理 器 硬件 的 复杂 性 。 虚 拟 地 址 转换 成 实地 址 ， 
这 涉及 访问 页 表 ， 这 个 页 表 可 能 在 TLB、 主 存 或 磁盘 上 。 然 后 要 访问 字 ， 这 字 也 可 能 在 高 速 组 
存 、 主 存 或 磁盘 上 ， 如 果 是 在 磁盘 上 ， 则 还 需要 将 包含 该 字 的 页 调 人 主 存 ， 把 它 的 块 装 人 高 速 组 
存 中 。 此 外 ， 还 要 更 新 该 页 的 页 表 项 。 






cache 操 作 


图 8-19 TLB 和 cache 操作 


8.3.6 分 段 


另 一 种 划分 可 寻 址 存储 器 的 方法 是 分 段 (segmentation)。 分 页 对 程序 员 是 不 可 见 的 ， 其 目的 
是 为 程序 员 提 供 较 大 的 地 址 空间 。 而 分 段 通常 对 程序 员 是 可 见 的 ， 它 使 组 织 程序 和 数据 更 方便 ， 
能 将 特权 、 保 护 属性 与 指令 、 数 据 联系 起 来 。 

分 段 后 ， 存 储 器 由 多 个 地 址 空间 或 段 组 成 。 段 长 度 是 可 变 、 可 动态 分 配 的 。 通 常 ， 程 序 员 或 
操作 系统 为 程序 和 数据 分 配 不 同 的 段 。 各 程序 可 以 有 许多 程序 段 和 数据 段 ， 各 段 可 指定 分 配 存 
取 权 和 使 用 权 ， 存 储 器 访问 地 址 由 段 号 和 偏 移 量 组 成 。 

对 程序 员 来 讲 ， 分 段 的 地 址 空间 有 许多 优点 : 

(1) 它 简 化 了 对 数据 结构 的 处 理 。 如 果 程 序 员 预 先 不 知道 其 数据 结构 有 多 大 ， 他 也 不 必 去 
猜测 。 该 数据 结构 可 以 分 配 它 自己 的 段 ， 并 且 操 作 系 统 会 按 数 据 结构 的 需要 动态 地 扩大 或 缩小 
这 个 段 。 

(2) 将 程序 分 段 允许 每 段 程序 独立 地 修改 和 重 编译 ， 不 需要 整个 程序 重新 连接 和 重 装 人 ， 
即使 用 多 个 段 来 完成 。 ， 

(3) 可 以 实现 进程 共享 。 程 序 员 将 某 程序 或 数据 表 放 和 一段， 其 他 进程 也 可 以 访问 该 段 
内 容 。 

(4) 可 以 实现 段 保护 。 一 个 段 可 能 包含 一 个 完好 定义 的 程序 或 数据 集 ， 程 序 员 或 系统 管理 
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员 能 方便 地 赋予 该 段 存 取 特 权 。 

这 些 优 点 在 分 页 中 是 没有 的 ， 因 为 分 页 对 程序 员 是 不 可 见 的 。 另 一 方面 ， 分 页 提供 了 存储 器 
管理 的 有 效 方式 。 为 了 兼并 这 两 者 的 优点 ， 有 些 操作 系统 同时 提供 了 分 页 和 分 段 两 种 方式 的 硬 
件 和 软件 支持 。 


8.4 Pentium 存储 器 管理 

引入 了 32 位 体系 结构 后 ， 微 处 理 器 已 经 可 以 实现 复杂 的 存储 器 管理 机 制 ， 这 些 机 制 只 在 大 、 
中 规模 系统 中 实现 。 在 很 多 情况 下 ， 微 处 理 器 比 其 先前 的 较 大 系统 版 本 更 胜 一 筹 。 由 于 存储 器 管 
理 方案 是 由 微 处 理 器 硬件 厂家 开发 的 ， 因 而 可 适应 于 各 种 操作 系统 ， 随 着 微 处 理 器 版 本 的 不 断 
升级 ,它们 趋向 于 通用 。 一 个 典型 的 例子 是 Pentium II 的 存储 器 管理 ，Pentium I 的 存储 管理 硬件 
基本 上 与 Intel 80386 和 80486 处 理 器 相同 ， 只 是 稍 做 了 一 些 改进 。 


8.4.1 地址 空间 


Pentium 包含 分 段 和 分 页 的 硬件 支持 ， 同 时 ， 两 种 机 制 都 能 禁用 。 它 允许 用 户 从 如 下 4 种 
不 同方 式 中 任 选 一 种 : 

。 不 分 段 不 分 页 存储 器 : 在 这 种 情况 下 ， 虚 拟 地 址 和 物理 地 址 相同 ， 适 用 于 低 复杂 性 、 高 
性 能 控制 器 的 应 用 。 
分 页 不 分 段 存 储 器 : 这 些 存 储 器 是 分 页 的 线性 地 址 空间 ， 存 储 器 的 保护 和 管理 通过 分 页 
实现 。 某 些 操作 系统 (如 Berkeley UNIX) 采用 这 种 方法 。 
分 段 不 分 页 存储 器 : 可 以 把 这 种 存储 器 看 成 逻辑 地 址 空间 的 集合 。 相 对 于 分 页 ， 其 优点 
E: 如 果 需 要 ， 它 可 以 提供 低 至 字 节 级 的 保护 机 制 ; 而 且 ， 它 可 以 保证 当 段 在 存储 器 中 
时 ， 需 要 的 转换 表 (BR) 在 芯片 上 。 因 此 ， 分 段 不 分 页 存储 器 可 以 预测 存 取 时 间 。 
分 段 分 页 存储 器 : 分 段 用 于 存储 器 逻辑 分 区 ， 分 页 用 于 则 辑 分 区 的 物理 再 分 配 ， 如 同 
UNIX System V 的 操作 系统 就 采用 这 种 方式 。 


8.4.2 分 段 


分 段 时 ， 每 个 虚拟 地 址 (在 Pentium I 中 称 为 逻辑 地 址 ) 由 16 位 段 号 和 32 位 偏 移 量 组 成 ， 
段 号 中 有 两 位 用 于 保护 机 制 , 余下 的 14 位 表示 一 个 具体 的 段 。 因 此 ， 对 于 无 分 段 的 存储 器 ， 用 
户 的 虚拟 存储 空间 是 2” =4GB。 而 在 有 分 段 的 存储 器 中 ， 用 户 总 的 虚拟 存储 空间 为 2” = 64TB。 
物理 地 址 空间 采用 32 位 地 址 ， 最 大 为 4GB。 

虚拟 存储 器 容量 实际 上 能 大 于 64TB， 这 是 因为 处 理 器 对 虚拟 地 址 的 译 码 取决 于 当前 哪个 进 
程 是 活动 的 。 虚 拟 地 址 空间 被 分 成 两 部 分 : 一 半 (8K 段 x4G6B) 是 全 局 的 ,被 所 有 进程 共享 ; 
另 一 半 是 局 部 的 ， 每 个 进程 都 不 同 。 

段 的 两 种 保护 机 制 是 : 优先 级 和 存 取 属性 。 优 先 级 有 4 种 ， 从 最 高 (0 级 ) 到 最 低 (3 级 ) 。 
与 数据 段 有 关 的 优先 级 称 为 “等 级 ”， 与 程序 段 有 关 的 优先 级 称 为 “许可 ”。 当 正在 执行 的 程序 
许可 级 低 于 (更 高 特权 ) 或 等 于 (相同 特权 ) 数据 段 的 优先 级 时 ， 它 可 存 取 此 数据 段 。 

硬件 没有 规定 这 些 优 先 级 的 分 配 ， 它 取决 于 操作 系统 的 设计 和 实现 。 特 权 级 1 通常 用 于 大 多 
数 操作 系统 ， 第 0 级 只 有 少量 操作 系统 用 于 负责 存储 器 管理 、 保 护 和 存 取 控 制 ， 剩 下 的 两 级 用 于 
应 用 。 在 许多 系统 中 ， 应 用 处 于 第 3 级 ， 而 第 2 级 不 用 。 一 些 特殊 的 应 用 子 系统 ， 由 于 它们 要 实 
现 自己 的 安全 机 制 ， 因 此 必须 受到 保护 ， 它 们 会 用 到 第 2 级 ， 例 如 数据 库 管 理 系统 、 办 公 自 动 化 
系统 和 软件 工程 环境 系统 。 

除了 约束 数据 段 的 存 取 外 ， 优 先 级 机 制 还 用 于 某 些 指令 。 一 些 指令 〈 如 处 理 存储 管理 寄存 
器 的 指令 ) 只 能 在 0 级 执行 。LO 指令 只 能 在 操作 系统 指定 的 某 一 级 上 执行 ， 通 常 是 第 1 级 。 
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数据 段 的 存 取 属性 表明 是 否 允 许 读 / 写 或 只 读 。 对 于 程序 段 ， 存 取 属性 表示 读 / 执 行 或 只 读 。 

段 地 址 转换 机 制 把 虚拟 地 址 映射 成 线性 地 址 (如 图 8-20b 所 示 ) 。 虚 拟 地 址 由 32 位 的 偏 移 量 
和 16 位 的 段 选择 符 组 成 (如 图 8-20a 所 示 ) ， 段 选择 符 又 包含 下 列 域 : 

。 段 表 指示 符 ( TL) : 指示 转换 使 用 的 是 全 局 段 表 或 者 局 部 段 表 。 

。 段 号 : 表示 第 几 段 ， 在 段 表 中 用 作 索 引 。 

。 请 求 优先 级 (RPL): 存 取 请 求 的 优先 级 。 

段 表 中 的 每 一 项 由 64 位 组 成 ， 如 图 8-20c 所 示 ， 域 定义 如 表 8-5 所 示 。 


—— ae 


TI = 表 指示 符 


RPL = 请求 优先 级 
a) 段 选 择 符 


| 











b) 线性 地 址 
人 
AVL = 可 被 系统 软件 使 用 G = 粒度 O = 保留 
Base = 段 基 址 Limit = 段 限 
D/B = 默认 的 操作 大 小 P = 段 出 现 
DPL = 描述 符 优 先 级 S = 描述 符 类 型 
c) 段 描述 符 ( 段 表 项 ) 
人 人 人 人 全 
P 
D 下 
AVL = 可 被 系统 程序 员 使 用 PWT = 写 直 达 
PS ”= 页 大 小 US ”= 用 户 / 监督 
A ”= 访问 过 RW = 读 / 写 
PCD = cache 禁止 P = 出 现 
d) 页 目录 项 





D = WEE 


©) 页 表 项 
KI 8-20 Pentium 存储 器 管理 格式 
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8.4.3 分 页 


分 段 是 一 种 可 选 特性 ， 可 以 禁止 。 使 用 分 段 时 ， 程 序 使 用 的 是 虚拟 地 址 ， 它 要 转换 成 线性 地 
址 。 分 段 禁止 时 ， 在 程序 中 直接 使 用 线性 地 址 。 因 此 ， 无 论 是 否 分 段 ， 下 一 步 的 工作 都 是 将 线性 
地 址 转换 成 32 位 的 实际 地 址 。 

为 了 理解 线性 地 址 的 结构 ， 必 须知 道 Pentium I 的 分 页 机 制 实际 上 是 一 种 二 级 表 的 检索 操 
作 。 第 1 级 是 一 个 包含 1024 个 项 的 页 目录 ， 它 将 4GB 的 线性 存储 空间 分 成 1024 个 页 组 ， 每 个 组 
有 自己 的 页 表 ， 每 个 页 组 长 度 为 4MB。 每 个 页 表 包 含 1024 个 项 ， 每 项 对 应 一 个 4KB 的 页 。 存 储 
器 管理 有 选择 地 使 用 页 目录 ， 由 所 有 进程 共用 一 个 页 目录 ， 或 者 每 个 进程 一 个 页 目录 ， 或 者 两 者 
的 组 合 。 当 前 任务 的 页 目录 总 是 在 主 存 中 ， 页 表 可 以 存储 在 虚拟 存储 器 中 。 

图 8-20 表示 页 目录 项 和 页 表 项 的 格式 ， 域 定义 如 表 8-5 所 示 。 注 意 ， 存 储 器 控制 机 制 可 用 于 
一 个 页 或 一 个 页 组 。 


#8-5 Pentium I 存 储 管理 参数 
段 描述 符 (BRM) 


基 (base) 
定义 段 在 4GB 的 线性 地 址 空间 中 的 起 始 地 址 。 
D/B 位 
在 代码 段 中 ， 这 是 D 位 ， 表 示 操 作 数 和 地 址 模式 是 16 位 还 是 32 位 。 
描述 符 优先 级 ( DPL) 
指定 此 段 描述 符 指向 的 段 的 优先 级 。 
粒度 位 (G) 
表示 段 限 域 是 以 1B 还 是 4KB 为 单位 来 说 明 。 
段 限 
定义 段 的 大 小 。 处 理 器 以 两 种 方法 之 一 说 明 段 限 域 。 它 的 大 小 取决 于 粒度 位 ; 在 以 字 节 为 单位 时 ， 段 限 长 度 为 
IMB; 以 4KB 为 单位 时 ， 段 限 长 度 最 大 为 4CB。 
S 位 
确定 某 一 给 定 的 段 是 系统 段 、 代 码 或 是 数据 段 。 





段 出 现 位 (P) 

用 于 不 分 页 的 系统 中 时 ， 它 指明 段 是 否 在 主 存 中 ; 对 于 分 页 系统 ， 这 一 位 总 是 被 置 为 1。 
类 型 

区 别 各 种 段 ， 表 示 存 取 属 性 。 

页 目录 项 和 页 表 项 

存 取 位 (A) 

当 读 或 写 操作 出 现在 相应 页 时 ， 处 理 器 将 两 级 页 表 中 的 此 位 设置 为 1。 
脏 位 (D) 

当 写 操作 出 现在 相应 页 时 ， 处 理 器 将 此 位 设置 为 1。 
页 帧 地 址 


如 果 出 现 位 (P) 置 位 ， 则 提供 该 页 在 存储 器 中 的 物理 地 址 。 由 于 页 帧 分 成 4KB 大 小 ， 因 此 低 12 位 为 0， 
高 20 位 包含 在 项 中 。 在 页 目录 中 ， 该 地 址 是 页 表 地 址 。 
页 cache 禁止 位 (PCD) 
说 明 页 中 的 数据 是 否 可 经 过 高 速 缓存 。 
页 大 小 位 (PS) 
表示 页 大 小 为 4KB 或 4MB。 
页 写 直达 位 (PWT) 
表示 此 页 的 数据 是 否 采 用 写 直达 或 回 写 的 cache 写 策略 。 
出 现 位 (P) 
表示 此 页 表 或 页 是 否 已 在 主 存 中 。 
读 / 写 位 (RW) 
对 于 用 户 级 的 页 ， 它 表示 用 户 级 程序 的 页 是 只 读 存 取 或 是 读 / 写 存 取 。 
用 户 / 管 理 位 (US) 
表示 该 页 是 只 在 操作 系统 级 (管理 级 ) 可 用 还 是 在 操作 系统 和 应 用 级 〈 用 户 级 ) 都 可 用 。 


并 
at 
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Pentium 开 也 使 用 快 表 ， 该 快 表 能 保存 32 个 页 表 项 。 每 当 页 目录 变化 时 ， 快 表 被 清空 。 
图 8-21 表示 分 段 和 分 页 的 组 合 。 为 了 清晰 ， 快 表 和 存储 器 高 速 缓存 机 制 未 显示 出 来 。 


逻辑 地 址 1 1 i 
段 写 | mE | 





物理 
地 址 





页 目录 页 表 | 
分 段 | 分 页 | 主 存 
图 8-21 Pentium 存储 器 地 址 转换 机 制 


最 后 ，Pentium 卫 扩 展 了 80386 或 80486， 它 提供 了 两 种 页 长 度 。 如 果 在 控制 寄存 器 4 中 的 页 
长 度 扩展 位 (PSE) 置 为 1， 则 分 页 单元 允许 操作 系统 程序 员 定义 页 长 度 为 4KB 或 4MB。 

使 用 4MB 的 页 时 ， 只 有 一 级 表 检 索 。 当 硬件 存 取 页 目录 时 ， 页 目录 项 〈 如 图 8-20d 所 示 ) 
使 PS 位 置 为 1。 在 这 种 情况 下 ， 第 9 到 21 位 被 忽略 ， 而 第 22 到 31 位 定义 存储 器 中 一 个 4MB 页 
的 基地 址 ， 从 而 ， 这 是 一 个 单 页 表 。 

使 用 4MB 的 页 可 减少 存储 器 管理 本 身 对 大 量 主 存 的 需求 。 使 用 4KB 的 页 ， 整 个 4GB 的 主 存 
大 约 需要 4MB 的 存储 器 来 存放 页 表 ; 而 使 用 4MB 的 页 ， 单 个 4KB 长 度 的 表 便 足以 满足 页 存储 管 
理 的 存储 需求 。 


8.5 ARM 存储 器 管理 
ARM 提供 了 一 种 通用 的 虚拟 存储 器 系统 结构 ， 它 通过 裁剪 满足 舱 入 式 系统 设计 者 的 需要 。 


8.5.1 存储 器 系统 组 织 


图 8-22 是 ARM 中 虚拟 存储 器 的 存储 器 管理 硬件 的 概述 图 。 如 随后 所 述 ， 虚 拟 存储 器 转换 硬 
件 采用 一 级 或 二 级 表 将 虚拟 地 址 转换 成 物理 地 址 。 快 表 (TLB) 存储 最 近 使 用 的 页 表 项 ， 如 果 将 
要 调用 的 页 表 项 在 TLB H, N TLB 直接 将 该 页 的 物理 地 址 发 给 主 存 用 于 读 / 写 操作 。 正 如 第 4 章 
所 述 ， 处 理 器 与 主 存 之 间 的 数据 交换 是 通过 高 速 缓存 进行 的 。 如 果 采 用 了 逻辑 高 速 缓存 (如 图 
4-Ta 所 示 ) ， 则 当 高 速 缓存 访问 失效 时 ，ARM 直接 提供 地 址 给 高 速 缓存 同时 也 提供 给 TLB; 如 果 
采用 了 物理 高 速 缓存 (如 图 4-7b Bras) ， 则 TLB 必须 将 物理 地 址 提供 给 高 速 缓存 。 

转换 表 中 的 项 也 包含 存 取 控制 位 ， 它 决定 进程 是 否 可 以 存 取 某 一 段 主 存 。 如 果 不 允 许 存 取 ， 
则 访问 控制 硬件 向 ARM 处 理 器 发 送 存 取 终止 信号 。 


8.5.2 ”虚拟 存储 器 地 址 转换 


ARM 存储 器 存 取 基 于 分 节 或 分 页 来 支持 存储 器 访问 : 
。 超级 节 (可 选 ) : 由 主 存 的 16MB 块 组 成 。 

eo: 由 主 存 的 1MB 块 组 成 。 

。 ARM: 由 主 存 的 64KB 块 组 成 。 
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。 小 页 : 由 主 存 的 4KB 块 组 成 。 





图 8-22 ARM 存储 器 系统 


节 和 超级 节 可 以 使 用 TLB 中 单个 表 项 映射 一 大 片 主 存 区 域 ， 而 且 存 取 控 制 机 制 可 以 将 小 页 
扩展 到 1KB 的 子 页 ， 将 大 页 扩展 到 16KB 的 子 页 。 保 存在 主 存 中 的 转换 表 有 两 级 : 

。 第 一 级 表 : 包含 节 和 超级 节 的 转换 地 址 ， 以 及 指向 第 二 级 表 的 指针 。 

。 第 二 级 表 : 包含 大 页 和 小 页 的 转换 地 址 。 

存储 器 管理 单元 (MMU) 将 处 理 器 产生 的 虚拟 地 址 转换 为 访问 主 存 的 物理 地 址 ， 并 驱动 和 
检查 存 取 许可 位 。 如 果 TLB 发 生 页 缺失 ， 则 需要 转换 地 址 ， 首 先 在 第 一 级 表 中 取 转 换 地 址 。 节 
映射 存 取 只 需要 在 第 一 级 表 中 取 转 换 地 址 ， 而 页 映射 存 取 还 需要 在 第 二 级 表 中 取 转 换 地 址 。 

图 8-23 表示 小 页 的 两 级 地 址 转换 过 程 。 一 级 (Ll) 页 表 包 含 4K 个 32 位 的 表 项 ， 每 个 Ll 表 
项 指向 一 个 二 级 (12) WH; 二 级 页 表 包 含 255 个 32 位 的 表 项 。 每 个 12 表 项 指向 主 存 中 一 个 大 
小 为 4KB 的 页 。32 位 的 虚拟 地 址 结构 如 下 : 最 高 12 位 是 指向 Ll 页 表 的 索引 ， 接 下 来 的 8 位 指 
向 相应 的 L2 页 表 地 址 ， 最 低 的 12 位 指向 主 存 中 相应 页 的 一 个 字 节 。 


虚拟 地 址 





1 级 (L1) 页 表 


2 级 (L2) WH 


小 页 (4KB) 


图 8-23 ”小 页 的 ARM 虚拟 存储 器 地 址 转换 


第 8 章 操作 系统 支持 .189 


一 个 类 似 的 二 页 地 址 转换 适用 于 大 页 ， 而 节 和 超级 节 只 需 查找 L 页 表 。 


8.5.3 ”存储 器 管理 格式 


为 了 更 好 地 理解 ARM 的 存储 器 管理 机 制 ， 我 们 考虑 其 主要 的 存储 器 管理 格式 ， 如 图 8-24 所 
示 。 图 中 控制 位 的 定义 参见 表 8-6。 


31 24 23 20 19 14 1211109 8 54321 0 
默认 IGN 


级 节目 Sps 5 n | AP TEx appl, T C 
a) 


一 级 LI1 表格 式 





31 161514 12 1110987 654 rel 
默认 IGN 


b) 二 级 L2 表格 式 





31 24 23 20 19 0 
超级 节 | -ARA 





BL 2019 wi o — 0 


— 
ot 





31 ; 20 19 1211 0 


31 20 19 16 15 0 








O 虚 拟 存储 器 地 址 格式 。 
图 8-24 ARMv6 存储 器 管理 格式 


对 于 LI1 页 表 ， 每 一 个 表 项 表示 它 与 1MB 的 虚拟 地 址 的 映射 关系 。 每 个 表 项 有 4 种 可 选 格式 
之 一 

© 位 [1:0] =00: 对 应 的 虚拟 地 址 没有 被 映射 , 试图 存 取 时 会 产生 地 址 转换 错误 。 

e 位 [1:0] =01: 表 项 给 出 L2 页 表 的 物理 地 址 ， 它 说 明了 对 应 虚拟 地 址 的 映射 关系 。 

。 位 [1:0] =01 HF 19 位 为 0: 表 项 表示 的 是 对 应 虚拟 地 址 的 节 映 射 。 

e 位 [1:0] =01 且 第 19 位 为 1: 表 项 表示 的 是 对 应 虚拟 地 址 的 超级 节 映 射 。 

位 [1:0] =11 的 表 项 被 保留 。 

对 于 分 页 的 存储 器 结构 ， 需 要 一 个 二 级 页 表 存 取 ，L1 页 表 项 的 位 [31: 30] 包 含 了 一 个 指针 指 
向 一 个 Ll 页 表 。 对 于 小 页 ，L2 页 表 项 中 包含 一 个 20 位 的 指针 指向 主 存 中 一 个 4KB 页 的 基地 址 。 
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ao BG ARM SR 
访问 允许 (AP) 位, 访问 允许 扩展 (APX) 位 : 
控制 相应 的 存储 器 访问 。 如 果 访 问 没有 得 到 允许 ， 则 会 引起 许可 故障 。 
可 缓冲 (B) fi: 
和 TEX 位 一 起 决定 带 高 速 缓存 的 存储 器 的 写 缓冲 方式 。 
可 高 速 缓存 (C) 位 : 
决定 某 一 块 存储 区 是 否 可 以 映射 到 高 速 缓存 。 
域 (Domain ) : 
若干 存储 区 的 集合 ， 存 储 控制 可 应 用 于 基本 域 。 
非 全 局 (nG) 位 : 
决定 某 一 地 址 转换 是 否 为 全 局 (0) 或 为 指定 进程 (1) 。 
共享 (S) 位 : 
决定 某 一 地 址 转换 是 共享 存储 器 (1) 或 是 不 共享 存储 器 (0) 。 
SBZ 位 : 
应 该 为 0。 
类 型 扩展 (TEX) 位 : 
与 B 和 C 位 一 起 控制 高 速 缓存 的 读 取 、 写 缓冲 方式 ， 以 及 如 果 某 存储 区 域 是 可 共享 的 则 必须 保证 其 一 致 性 。 
永 不 执行 (XN) 位 : 
决定 某 存储 区 是 可 执行 的 (0) 还 是 不 可 执行 的 (1) 。 


大 页 的 页 表 结 构 更 为 复杂 。 与 小 页 的 虚拟 地 址 结构 一 样 ， 大 页 的 虚拟 地 址 结构 中 有 12 位 指 
向 Ll 页 表 、8 位 指向 L2 页 表 。 对 于 64KB 的 大 页 ， 其 虚拟 地 址 的 页 索引 部 分 必须 是 16 位 。 为 了 
使 这 种 结构 适用 于 32 位 的 格式 ，4 位 页 索引 域 与 L2 ARRE, ATKAL, ARM 要 求 
12 页 表 中 的 每 一 个 支持 大 页 的 页 表 项 复制 16 次 。 实 际 上 ， 如 果 所 有 的 页 表 项 都 指向 大 页 ， 那 么 
12 页 表 中 的 页 表 项 就 从 256 个 减少 到 了 16 个 。 然 而 ， 一 个 给 定 的 L2 页 表 能 够 支持 大 页 和 小 页 
的 混合 ， 因 此 需要 进行 大 页 项 的 复制 。 

节 和 超级 节 的 存储 器 结构 需要 一 级 页 表 存 取 。 对 于 节 结 构 ，L1 页 表 项 中 的 位 [31:20] 包含 
— 12 位 的 指针 ， 指 向 主 存 中 1MB 节 的 基地 址 。 

对 于 超级 节 结 构 ，L1 页 表 项 的 位 [31:24] 包含 一 个 8 位 的 指针 ， 指 向 主 存 中 16MB 节 的 基 
地 址 。 就 像 大 页 结构 一 样 ， 需 要 页 表 项 的 复制 。 在 超级 节 结构 中 ， 虚 拟 地 址 的 Ll 页 表 索 引 部 分 
与 虚拟 地 址 的 超级 节 索 引 部 分 有 4 MWEE, A, mE 16 个 完全 相同 的 Ll 页 表 项 。 

物理 地 址 范围 可 以 通过 8 个 额外 的 地 址 位 〈 位 [23:20] 和 位 [8:5]) 进行 扩展 。 扩 展 的 范 
围 与 额外 位 的 数量 有 关 ， 实 际 上 ， 这 些 额 外 位 可 以 将 物理 地 址 扩展 为 2 = 256 的 倍数 。 因 此 ， 对 
于 每 一 个 进程 ， 可 寻 址 的 物理 存储 范围 可 以 变 成 了 原来 的 256 倍 。 


8.5.4 FRE 


每 个 表 项 中 的 存 取 控制 位 AP 表示 某 一 给 定 进 程 对 一 存储 区 的 存 取 权 限 ， 每 块 存储 区 都 可 以 
设置 为 不 可 访问 、 只 读 或 者 读 写 。 进 一 步 说 ， 还 可 以 将 它 设置 为 特权 访问 ， 即 只 有 操作 系统 才 可 
以 访问 ， 用 户 不 可 以 访问 。 

ARM 也 引入 了 “ 域 ”的 概念 ， 域 是 一 批 具 有 特殊 访问 权限 的 节 和 /或 页 。ARM 体系 结构 支 
持 16 个 域 ， 域 特征 允许 多 个 进程 使 用 同一 个 转换 表 而 不 会 相互 影响 。 

每 个 页 表 项 和 TLB 项 都 包含 一 个 字段 ， 用 来 指明 该 项 是 包含 在 哪个 域 中 。 域 存 取 控制 寄存 
器 中 一 个 2 位 的 字段 控制 访问 每 个 域 ， 每 个 字段 可 以 迅速 地 标志 访问 一 个 域 是 允许 还 是 禁止 ， 以 
便 整 个 存储 区 域 可 以 非常 有 效 地 换 入 和 换 出 虚拟 存储 区 。 可 支持 的 域 存 取 权限 有 两 种 : 

。 客户 : 域 的 用 户 (执行 程序 和 存 取 数 据 ) ， 它 必须 获得 构成 该 域 每 一 节 和 每 一 页 的 存 取 人 允许 。 

。 管理 员 : 控制 域 (该 域 的 当前 节 和 当前 页 ， 以 及 该 域 的 存 取 ) 的 行为 ， 页 不 会 管理 域 中 

表 项 的 存 取 人 允许 权限 。 

一 个 程序 可 以 是 一 些 域 的 客户 端 ， 同 时 也 是 另外 一 些 域 的 管理 员 ， 而 对 剩 下 的 域 没 有 访问 

权限 ， 这 样 在 一 个 程序 访问 不 同 的 存储 器 资源 时 可 以 实现 对 存储 器 的 灵活 保护 。 
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8.6 推荐 的 读物 和 Web 站 点 
[STAL09] 包含 了 这 章 相关 的 详细 内 容 。 


STALO9 Stallings, W. Operating System, Inienal and Design Principles, Sixth Edition. Upma dd Rer, 
NJ; Prentice Hall, 2009. 









@il| 推荐 的 Web 站 点 


e Operating System Resource Center: 收集 了 许多 有 用 的 关于 操作 系统 的 文档 资料 和 期 刊 。 

e ACM Special Interest Group on Operating System: 提供 SIGOPS 的 出 版 资料 和 相关 参考 文献 。 

e IEEE Technical Committee on Operating System and Applications: 包括 在 线 时 讯 和 到 其 他 网 站 的 链 
接 。 


8.7 关键 词 、 思 考题 和 习题 


关键 词 

batch system: 批 处 理 系统 

demand paging: 请 求 分 页 

interactive operating system: 交互 式 操 作 系 统 


partitioning: 分 区 
physical address: 物理 地 址 
privileged instruction; 特权 指令 


interrupt; 中 断 process: 进程 
job control language (JCL) : 作业 控制 语言 process control block; 进程 控制 块 
kernel: 内 核 process state: 进程 状态 


logical address; 逻辑 地 址 
long-term scheduling: 长 期 调度 
medium-term scheduling: 中 期 调度 
memory management: 存储 器 管理 
memory protection; 存储 器 保护 
multiprogramming; 多 道 程序 设计 


real memory: 实 存储 器 

resident monitor: 驻 留 的 监控 程序 
segmentation; 分 段 

short-term scheduling: 短期 调度 
swapping: 交换 

thrashing: 抖动 


multitasking: 多 任务 化 

nucleus: 核 ， 核 心 

operating system (OS): 操作 系统 
paging: 分 页 

page table: 页 表 


思考 题 


8.1 什么 是 操作 系统 ? 

8.2 列 出 并 简要 定义 操作 系统 提供 的 主要 服务 。 

8.3 列 出 并 简要 定义 操作 系统 的 主要 调度 类 型 。 

8.4 进程 和 程序 有 什么 不 同 ? 

8.5 交换 的 目的 是 什么 ? 

8.6 ”如 果 进 程 可 以 动态 地 分 配 到 主 存 中 的 不 同位 置 ， 这 对 寻 址 机 制 有 何 影响 ? 
8.7 在 进程 执行 期 间 ， 此 进程 的 所 有 页 都 必须 在 主 存 中 吗 ? 

8.8 一 进程 的 页 在 主 存 中 必定 是 连续 的 吗 ? 

8.9 一 进程 的 页 在 主 存 中 必须 按 顺 序 排列 吗 ? 

8.10 快 表 的 作用 是 什么 ? 


习题 
8.1 假设 我 们 有 一 台 能 进行 多 道 程序 设计 的 计算 机 ， 每 个 作业 有 一 个 标识 符 。 在 一 个 计算 周期 7 了 内， 一 


time-sharing system: 分 时 系统 
translation lookaside buffer (TLB ) : 快 表 
utility: 实用 程序 

virtual memory: 虚拟 存储 器 
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8.2 


8.3 


8.4 


8.5 
8.6 


8.7 
8.8 


8.9 


8.10 


作业 的 一 半 时 间 花 在 VO 上 ， 男 一 半 时 间 花 在 处 理 器 处 理 上 。 每 个 作业 总 共 运 行 Y 个 周期 。 假 设 使 用 
简单 的 轮转 优先 权 算法 ，L0O 操作 能 与 处 理 器 操作 重 倒 ， 定 义 以 下 变量 : 

。 周转 时 间 = 完成 一 个 作业 的 实际 时 间 。 

。 AER = 平均 每 个 时 间 周期 7 内 完成 的 作业 数 。 

o 处 理 器 利用 率 = 处 理 器 活动 (不 是 等 待 ) 时 间 的 百分数 。 

假设 周期 了 以 下 列 方式 分 配 ， 同 时 有 1 个 、2 个 和 4 个 作业 时 ， 计 算 周 转 时 间 ， 吞 吐 率 和 处 理 器 利 
用 率 。 

(a) LO 占用 第 1 个 半 周 期 ， 处 理 器 占用 第 2 个 半 周 期 。 

(b) VO 占用 第 1、 第 4 个 174 周期 ， 处 理 器 占用 第 2、 第 3 个 1/4 周期 。 

VO 受 限 的 程序 定义 为 : 如 果 单 独 运行 ， 则 等 待 VO 的 时 间 比 使 用 处 理 器 的 时 间 多 ; 处 理 器 受 限 的 程 
序 则 相反 。 假 设 短期 调度 算法 适合 那些 最 近 使 用 较 少 处 理 器 时 间 的 程序 ， 解 释 为 什么 这 个 算法 适合 于 
LO 受 限 的 程序 ， 而 并 不 始终 拒绝 被 处 理 器 受 限 的 程序 使 用 ? 

一 个 程序 的 功能 是 计算 数组 A〈 大 小 为 100 x100) 中 某 一 行 的 和 : 


C; = ya, 
假设 计算 机 采用 请 求 分 页 机 制 ， 每 页 大 小 为 1000 个 字 ， 主 存 分 配给 它们 5 个 页 帧 。 如 果 数 组 A 按 行 存 
储 或 按 列 存 储 在 虚拟 存储 器 中 ， 页 失效 率 有 区 别 吗 ? 请 解释 原因 。 
一 个 容量 为 2” 字 节 的 存储 器 采用 等 长 度 的 分 区 方案 ， 每 个 分 区 的 大 小 是 2“ 字 节 ， 所 维护 的 进程 表 包 
括 一 个 指向 各 驻 留 进程 分 区 的 指针 。 此 指针 需要 多 少 位 ? 
考虑 动态 分 区 策略 ， 请 说 明 : 平均 而 言 ， 存 储 器 拥有 的 空 块 数据 是 段 数 的 一 半 。 
假设 处 理 器 当前 正在 执行 的 进程 的 页 表 如 下 ， 所 有 数据 是 十 进 制 ， 用 数字 表示 每 个 事情 均 从 0 开始 ， 
所 有 地 址 都 是 存储 器 的 字 节 地 址 ， 一 个 页 的 大 小 为 1024B。 





























(a) 准确 描述 CPU 生成 的 虚拟 地 址 如 何 转换 成 主 存 的 物理 地 址 。 
(b) 虚拟 地 址 : ( 工 ) 1052, (I) 2221，( 亚 ) 5499 对 应 的 物理 地 址 是 什么 (不 考虑 页 故障 )? 
说 出 在 虚拟 存储 器 系统 中 ， 页 大 小 既 不 应 该 很 小 也 不 应 该 很 大 的 理由 。 
处 理 器 以 如 下 顺序 访问 A、B、C、D、E 5 个 页 : 
A, Ba D,. A, B, E, A, B. C, D, E 
假定 开始 前 主 存 有 3 个 空 页 帧 并 采用 先进 先 出 替换 算法 ， 请 指出 此 访问 序列 下 主 存 传送 (ARH) 
页 的 页 号 序列 。 若 有 4 个 空 页 帧 ， 重复 此 问题 。 
在 带 有 虚拟 存储 器 的 计算 机 的 执行 过 程 中 ， 遇 到 如 下 序列 的 虚拟 页 号 : 
34264713 263 5 12 3 
假设 采用 最 近 最 少 使 用 的 页 替换 策略 ， 主 存 初 始 时 为 空 。 画 出 页 命中 率 (访问 的 页 已 在 主 存 中 的 百 分 
tt) SERRA n (1<n<8) 函数 的 图 。 假 设 开始 时 主 存 为 空 。 
在 VAX 机 中 ， 用 户 的 页 表 被 放置 在 系统 空间 的 虚拟 地 址 处 。 问 : 用 户 的 页 表 存 储 在 虚拟 空间 而 不 存 
储 在 主 存 中 有 什么 优点 ? 又 有 什么 缺点 ? 
车 程序 语句 
for (i=1;i< =n; i++) 
ali] =b(iJ]+c(il; 
在 一 个 页 大 小 为 1000 字 的 存储 器 上 执行 ， 请 写 一 段 机 器 指令 程序 来 实现 它 ， 令 n=1000， 机 器 具有 全 
范围 的 寄存 器 到 寄存 器 的 指令 并 可 使 用 变 址 寄存 器 。 然 后 写 出 执行 期 间 页 访问 的 序列 。 
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8.12 IBM370 体系 结构 使 用 了 段 和 页 的 两 级 存储 器 结构 ， 但 它们 的 分 段 法 缺少 许多 本 章 前 面 所 描述 的 特征 。 
对 于 基本 的 370 体系 结构 ， 页 大 小 是 2KB 或 4KB， 固 定 的 段 大 小 是 64KB 或 1MB。 对 于 370/XA 和 
370/ESA 体系 结构 ， 页 大 小 是 4KB， 段 大 小 是 1MB。 这 种 策略 缺乏 分 段 法 的 什么 优点 ? 370 的 分 段 法 
又 有 什么 优点 ? 

8.13 考虑 一 个 既 有 分 段 又 有 分 页 的 计算 机 系统 ， 当 段 在 主 存 中 时 ， 其 最 后 一 页 总 有 些 字 是 浪费 的 。 另 外 ， 
当 段 大 小 为 s， 页 大 小 为 p 时 ,应 有 s/p 个 页 表 项 。 页 越 小 ， 段 中 最 后 一 页 的 浪费 就 越 少 ， 但 页 表 却 
增 大 了 。 那 么 ， 多 大 的 页 能 使 总 开销 最 小 ? 

8.14 计算 机 有 一 个 cache、 主 存 和 用 于 虚拟 存储 器 的 磁盘 。 如 果 一 个 字 在 cache 中 ， 则 需 20ns 的 时 间 来 存 
取 它 。 如 果 字 在 主 存 而 不 在 cache 中 ， 则 首先 需 60ns 的 时 间 将 它 调 人 cache， 然 后 再 开始 存 取 。 如 果 
字 不 在 主 存 中 ， 则 需 12ms 的 时 间 从 磁盘 中 获取 ， 再 用 60ns 将 它 存 人 cache 中 。 如 果 cache 的 命中 率 
为 0.9， 主 存 的 命中 率 为 0.6。 问 : 存 取 一 个 字 的 平均 存 取 时 间 是 多 少 ? 

8.15 ”假设 把 一 个 任务 分 成 4 个 大 小 相等 的 段 ， 系 统 为 每 个 段 建立 一 个 8 项 的 页 描述 符 表 。 于 是 ， 系 统 是 分 
段 和 分 页 的 组 合 ， 同 时 假设 页 长 度 为 2 KB, fal: 

(a) 每 个 段 的 最 大 长 度 是 多 少 ? 

(b) 此 任务 的 最 大 逻辑 地 址 空间 是 多 少 ? 

(c) 假设 物理 单元 00021ABC 中 的 一 个 元 素 被 此 任务 存 取 ， 则 任务 产生 的 逻辑 地 址 格式 是 什么 ?系统 
的 最 大 物理 地 址 空间 是 多 少 ? 

8.16 ”假设 某 个 微 处 理 器 能 存 取 多 达 2”B 的 物理 主 存 ， 它 采用 分 段 逻辑 地 址 空间 ， 最 大 长 度 为 2"B。 每 条 指 
令 包含 整个 两 部 分 地 址 ， 采 用 外 部 存储 管理 单元 (MMU) ， 它 的 管理 方案 是 把 固定 长 度 2”B 的 物理 存 
储 中 的 相 邻 块 分 配给 段 ， 一 个 段 的 起 始 物理 地 址 总 是 1024 的 倍数 。 画 出 采用 合适 的 MMU 数值 并 将 逻 
辑 地 址 转换 成 物理 地 址 的 外 部 映射 机 制 的 详细 连接 图 ， 以 及 MMU 的 内 部 结构 图 (假设 每 个 MMU 包 
A 128 项 直接 映射 段 描 述 符 cache) ， 每 个 MMU 怎样 选择 ? 

8.17 考虑 一 个 分 页 逻辑 地 址 空间 (包含 32 个 页 ， 每 页 2KB) 映射 成 1MB 的 物理 存 取 空间 ， 问 : 

(a) 处 理 器 的 逻辑 地 址 格式 是 什么 ? 
(b) 页 表 的 长 度 和 宽度 是 什么 ? (不 考虑 “ 存 取 权 ” 位 。) 
(c) 如 果 物 理 存储 空间 减少 一 半 ， 则 对 页 表 有 什么 样 的 影响 ? 

8.18 Æ IBM 大 型 操作 系统 OS/390 中 ， 内 核 的 一 个 重要 模块 是 系统 资源 管理 器 (SRM) ， 这 个 模块 负责 在 

地 址 空间 (进程) 之 间 分 配 资源 。 在 各 种 操作 系统 中 ，SRM 给 予 05/390 独特 的 精致 度 。 没 有 任何 其 
他 类 型 的 大 型 操作 系统 ， 其 至 可 以 说 ,没有 任何 其 他 类 型 的 操作 系统 ， 能 与 SRM 所 提供 的 功能 相 匹 
配 。 资 源 包括 处 理 器 、 实 存储 器 和 1/O 通道 。SRM 统计 处 理 器 、 通 道 和 各 种 关键 数据 结构 的 利用 率 ， 
其 目的 是 在 性 能 监督 和 分 析 的 基础 上 优化 性 能 。 建 立 后 面 的 各 种 性 能 目标 并 把 这 些 作为 服务 的 指导 ， 
SRM 基于 系统 的 利用 率 动态 地 修改 安装 和 作业 性 能 特征 。SRM 本 身 也 提供 报告 以 允许 训练 有 素 的 操 
作 员 改进 配置 和 参数 设置 来 改善 用 户 业 务 。 
这 个 问题 是 关于 SRM 活动 的 一 个 例子 。 实 存储 器 被 分 成 等 长 的 块 ， 称 为 帧 ， 这 里 可 能 有 成 千 上 万 个 
块 。 每 个 帧 能 容纳 虚拟 存储 器 的 一 个 块 ， 称 为 页 。SRM 大 约 每 秒 接收 20 次 控制 信息 ， 每 次 都 会 检查 
所 有 页 帧 。 如 果 页 没有 被 访问 过 或 修改 过 ， 计 数 器 加 1。 过 一 段 时 间 ，SRM 取 这 些 数 的 平均 值 来 确定 
系统 中 一 页 帧 未 被 触动 过 的 平均 秒 数 。SRM 这 样 做 的 目的 是 什么 ?SRM 会 采取 什么 动作 ? 

8.19 根据 图 8-24 所 示 的 每 个 ARM 的 虚拟 地 址 格式 ， 写 出 其 物理 地 址 格式 。 

8.20 当主 存 划分 为 多 个 节 时 ， 画 出 类 似 图 8-23 的 ARM 虚拟 存储 器 转换 。 
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到 目前 为 止 ， 我 们 基本 上 把 处 理 器 (processor) 看 作 是 一 个 黑匣子 ， 考 察 了 它 与 输入 /输出 
设备 ， 以 及 存储 器 的 相互 关系 和 操作 。 本 部 分 将 考察 处 理 器 的 内 部 结构 和 功能 。 处 理 器 由 寄存 器 
组 、 算 术 遇 辑 单 元 、 指 令 执 行 单元 、 控 制 单 元 ， 以 及 这 些 部 件 间 的 互 连 结构 所 组 成 。 本 部 分 介绍 
诸如 指令 集 设计 和 数据 类 型 这 样 的 体系 结构 问题 ， 还 考察 像 流 水 线 这 样 的 组 织 结 构 问 题 。 下 面 
对 本 部 分 的 各 章 予 以 简 述 。 

第 9 章 计算 机 算术 

第 9 BARE RY BB 7 (Arithmetic and Logic Unit, ALU) 的 功能 ， 并 关注 数 的 表示 方法 
和 实现 算术 运算 的 技术 。 一 般 来 说 ， 处 理 器 支持 定点 数 ( 或 整数 ) 和 浮 点 数 两 类 算术 运算 。 对 
这 两 种 数据 类 型 ， 本 章 都 是 先 考 察 数 的 表示 ， 然 后 讨论 算术 运算 。 本 章 还 详细 讨论 了 重要 的 
IEEE 754 浮 点 标准 。 

第 10 章 HOR: 特征 和 功能 

从 程序 员 的 视角 来 看 ， 理 解 处 理 器 操作 的 最 佳 途径 是 学 习 它 所 执行 的 机 器 指令 集 。 指 令 集 
设计 这 个 复杂 的 主题 占据 了 第 10、 第 11 两 章 的 内 容 。 第 10 章 重 点 讨论 指令 集 设 计 的 功能 方面 。 
该 章 首先 考察 计算 机 指令 所 指定 的 功能 类 型 ， 然 后 详细 地 考察 操作 数 类 型 ( 即 被 操作 的 数据 ) 
和 操作 类 型 。 最 后 ， 该 章 简要 说 明了 处 理 器 指令 与 汇编 语言 的 关系 。 

第 11 章 HOR: 寻 址 方式 和 指令 格式 

第 10 章 是 讨论 指令 集 的 语义 学 问题 ; 第 11 章 则 是 讨论 指令 集 的 语法 学 问题 。 具 体 而 言 ， 本 
章 考察 了 指定 存储 器 地 址 的 方式 和 计算 机 指令 的 完整 格式 。 

第 12 章 CPU 结构 和 功能 

第 12 章 集中 讨论 处 理 器 的 内 部 结构 和 功能 。 本 章 首 先 介绍 了 用 作 中 央 处 理 单 元 (Central 
Processing Unit, CPU) 内 部 存储 结构 的 寄存 器 组 ， 然 后 把 前 面 介 绍 过 的 所 有 内 容 综合 起 来 ， 提 供 
一 个 对 CPU 结构 和 功能 的 概述 。CPU 的 整体 组 织 (ALU， 寄 存 器 组 ， 控 制 器 ) 在 此 被 重新 审视 。 
接 下 来 ， 讨 论 寄 存 器 组 的 组 成 。 本 章 的 其 余部 分 描述 了 处 理 器 如 何 完 成 机 器 指令 的 执行 。 通 过 考 
察 指令 周期 ,说 明了 取 指 令 、 译 码 、 执 行 和 中 断 周 期 的 功能 及 其 相互 关系 。 本 章 最 后 深入 探讨 如 
何 使 用 流水 (pipelining) 技术 来 提高 性 能 。 

第 13 章 ”精简 指令 集 计 算 机 

第 三 部 分 的 最 后 两 章 详细 地 考察 了 CPU 设计 的 重要 趋势 。 第 13 章 介 绍 与 精简 指令 集 计算 机 
(Reduced Instruction Set Computers, RISC) 概念 相关 的 设计 方法 。RISC 是 计算 机 组 织 与 体系 结构 
领域 近年 来 最 显著 的 革新 之 一 。RISC 体系 结构 急剧 地 改变 了 处 理 器 体系 结构 的 发 展 趋势 。 对 
RISC 设计 方法 的 分 析 可 以 使 我 们 明了 计算 机 组 织 和 体系 结构 的 许多 重要 问题 。 本 章 首 先 考察 采 
用 RISC 设计 方法 的 动力 ， 然 后 详细 地 考察 RISC 指令 集 设 计 和 RISC CPU 体系 结构 ， 并 对 RISC 
与 复杂 指令 集 计 算 机 (Complex Instruction Set Computer, CISC) 设计 方法 做 比较 。 

第 14 章 指令 级 并 行 性 和 超标 量 处 理 器 

本 章 考察 一 个 更 新 近 的 并 且 是 同等 重要 的 设计 草 新 : 超标 量 (superscalar) 处 理 器 。 虽 然 超 
标量 技术 能 用 于 任何 类 型 的 处 理 器 ， 但 它 特别 适合 RISC 体系 结构 的 处 理 器 使 用 。 本 章 还 将 考察 
指令 级 并 行 性 (instruction level parallelism) 的 普遍 性 问题 。 
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计算 机 算术 


本 章 要 点 


。 计算 机 算术 涉及 的 两 个 基本 方面 是 数 的 表示 方式 (二进制 格 式 ) 和 基本 算术 运算 (加 、 

wi. RR) 的 算法 。 这 两 个 方面 既 适 用 于 整数 算术 ， 也 适用 于 浮 点 算术 。 

© 浮 点 数 表 示 成 一 个 数 (有 效 值 ，significant) 乘 以 一 个 定 值 (AA, base) WHS ERR 

(指数 ，exponent) 。 浮 点 数 能 够 表示 很 大 的 数 和 很 小 的 数 。 
。 大 多 数 处 理 器 都 实现 了 IEEE 754 标准 ， 用 于 浮 点 表示 和 浮 点 运算 。IEEE 754 定义 了 32 
位 和 64 位 两 种 浮 点 数 格式 。 

下 面 以 算术 逻辑 单元 (ALU) 的 概述 开始 讨论 处 理 器 。 简 要 介绍 ALU 之 后 ， 本 章 重点 放 在 
ALU 的 最 复杂 方面 计算 机 算术 。 作 为 ALU 一 部 分 的 逻辑 功能 将 在 第 10 章 介绍 ， 简 单 逻辑 和 运算 
功能 的 数字 逻辑 实现 则 在 第 20 章 介绍 。 

计算 机 算术 一 般 要 对 两 种 很 不 相同 的 数值 类 型 (整数 和 浮 点 数 ) ， 完 成 算术 运算 。 无 论 何 种 类 
型 ， 表 示 法 的 选择 都 是 关键 的 设计 出 发 点 。 我 们 首先 讨论 数 的 表示 法 ， 然 后 再 讨论 其 算术 运算 。 

本 章 给 出 了 一 些 实例 ， 每 个 实例 利用 灰色 方 框 突出 显示 。 


9.1 算术 逻辑 单元 

算术 逻辑 单元 (Arithmetie and Logic Unit, ALU) 是 计算 机 实际 完成 数据 算术 逻辑 运算 的 部 
件 。 计 算 机 系统 的 其 他 部 件 (控制 器 、 寄 存 器 、 存 储 器 、 输 入 /输出 ) ， 主 要 是 为 ALU 传人 数据 ， 
待 ALU 处 理 后 取 回 运算 结果 。 在 某 种 意义 上 ， 考 察 ALU 涉及 的 是 计算 机 的 核心 或 本 质 。 

算术 逻辑 单元 ， 以 及 计算 机 所 有 电子 部 件 实际 上 都 是 基于 简单 数字 逻辑 器 件 的 应 用 ， 这 些 
器 件 可 以 保存 二 进 制 数 字 ， 并 完成 简单 的 布尔 逻辑 ( Boolean logic) 操作 。 对 此 有 兴趣 的 读者 ， 
可 以 阅读 第 20 章 的 内 容 ， 它 提供 了 算术 进 辑 运算 的 数字 进 辑 实现 方面 的 知识 。 

图 9-1 以 不 失 一 般 性 的 方式 指出 了 ALU 如 何 与 处 
理 器 的 其 余部 分 互 连 。 数 据 由 寄存 器 提交 给 ALU， 运 
算 结果 也 存 于 寄存 器 。 这 些 寄存 器 是 处 理 器 内 的 临时 
存储 位 置 ， 它 们 通过 信号 路 径 连接 到 ALU (参见 图 
23), ALU 可 能 根据 运算 结果 设置 一 些 标志 。 例 如 ， 
如 果 计 算 结 果 超出 了 要 保存 它 的 寄存 器 位 宽 ， 那 么 上 
Ri (overflow) 标志 将 被 置 为 1。 标志 值 也 保存 在 处 理 SL OO 
器 内 的 寄存 器 中 。 控 制 器 提供 控制 ALU 操作 和 数据 传人 送出 ALU 的 信号 。 


9.2 ”整数 表示 
在 二 进 制 数 制 系统 中 ? ， 仅 用 数字 0 和 1、 负 号 和 小 数 点 (radix point) 表示 任意 一 个 数 。 例 如 ， 
-1101. 0101, = -13.3125 
对 于 计算 机 存储 和 处 理 ， 负 号 和 小 数 点 是 不 方便 的 ， 因 为 只 能 用 二 进 制 数字 (0 和 1) 来 表 
示 数 。 如 果 只 使 用 非 负 整 数 ， 那 么 其 表示 是 直截了当 的 。 








日 参见 第 19 章 关 于 数 制 系统 二进制、 十 进 制 、 十 六 进 制 ) 的 基本 介绍 。 
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一 个 8 位 的 字 能 表示 从 0 ~255 的 数 。 例 如 ， 
00000000 =0 
00000001 =1 
00101001 =41 
10000000 = 128 
11111111 =255 
通常 ， 如 果 以 一 个 n 位 二 进 制 数字 序列 a, ,4,，…aiao 表示 一 个 无 符号 整数 4， 那么 4 的 
值 是 : 


A= Ş 2, 
9.2.1 符号 - 幅 值 表示 法 
有 几 种 可 选 的 方式 来 表示 负数 和 正 数 。 这 些 表示 方式 都 涉及 将 字 的 最 高 位 (最 左 位 ) 作为 
符号 位 对 待 : 若 最 左 位 是 0， 则 为 正 数 ; 若 最 左 位 是 1， 则 为 负数 。 
采用 符号 位 表示 正 负数 的 最 简单 的 表示 法 是 符号 - 幅 值 表示 法 ( sign-magnitude represen- 
tation) 。 以 一 个 n 位 字 为 例 ， 最 左 位 为 符号 位 。 其 余 n -1 位 为 整数 的 幅 值 (绝对 值 ) 。 
+18 =00010010 


-18 =10010010 (符号 - 幅 值 ) 
一 般 情况 下 ， 符 号 - 幅 值 可 表示 为 : 


n-2 
> 2'a, WMR a, =0 
was i=0 


符号 - 幅 值 4 (9.1) 


- $ 2a, 如果 o =1 
符号 - 幅 值 表示 法 有 几 个 缺点 。 一 个 缺点 是 加 减 运算 时 既 要 考虑 数 的 符号 ， 又 要 考虑 幅 值 ， 才 
能 进行 所 要 求 的 运算 。 在 9. 3 节 的 讨论 中 ， 这 点 将 会 变 得 更 清楚 。 另 一 个 缺点 是 ，0 有 两 种 表示 : 
+0,, =00000000 
-0 = 10000000 (符号 - 幅 值 ) 
这 样 之 所 以 不 方便 ， 因 为 相对 于 单一 的 零 的 表示 ， 它 会 使 判断 是 否 为 零 的 操作 〈 计 算 机 经 
常 需要 进行 的 一 种 操作 ) 稍微 困难 一 点 。 
因为 这 些 缺 点 ， 符 号 - 幅 值 表 示 法 很 少 用 于 ALU 中 的 整数 表示 ， 而 最 常用 的 方案 是 2 的 补 码 
9.2.2 2 的 补 码 表示 法 


与 符号 - 幅 值 表示 法 类 似 ，2 的 补 码 表示 法 (twos complement representation) 也 使 用 最 高 位 作 
为 符号 位 ， 从 而 很 容易 判断 一 个 整数 是 正 还 是 负 。 其 不 同 点 在 于 其 他 位 的 解释 方式 。 表 9-1 说 明 
了 2 的 补 码 表示 法 和 算术 的 关键 特征 ， 这 是 本 节 和 下 一 节 所 要 阐述 的 。 


表 9-1 2 的 补 码 表示 法 和 算术 的 主要 特征 
范围 =2"-1 到 2*-1 -1 





Ls 











将 此 数 对 应 的 二 进 制 串 各 位 取 反 ;将 此 结果 作为 一 个 无 符号 数 对 待 ， 再 加 1 

在 此 数 的 左边 添加 附加 位 的 位 置 ， 并 以 原 符号 位 的 值 填充 这 些 位 置 

若 两 个 同 符号 数 相 加 (两 个 正 数 或 两 个 负数 )， 则 当 且 仅 当 结果 的 符号 位 变 反 时 才 出 现 上 洲 
由 4 减 B， 则 先 取 B 的 2 的 补 ， 然 后 与 4 相 加 





位 长 度 扩 展 
上 溢 规 则 
减法 规则 
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大 多 数 关 于 2 的 补 码 表 示 法 的 介绍 都 把 重点 放 在 生成 负数 的 规则 上 ， 但 并 没 给 出 为 什么 这 些 
规则 能 够 成 立 的 证 明 。 而 本 节 和 9.3 节 对 于 2 的 补 码 的 介绍 是 基于 参考 文献 [DATT93] 的 。 它 
建议 ， 通 过 以 位 加 权 取 和 的 方式 来 定义 2 的 补 码 ， 正 如 上 面 对 无 符号 和 符号 - 幅 值 表 示 法 所 做 的 
那样 ， 这 有 助 于 更 好 地 理解 2 的 补 码 表示 法 。 这 种 解释 的 优点 在 于 ， 它 可 以 消除 2 的 补 码 算术 规 
则 可 能 不 适 于 某 些 特殊 情况 的 任何 疑虑 。 

考虑 以 2 的 补 码 形式 来 表示 一 个 位 整数 4。 若 4 是 正 的 ， 则 符号 位 “a,_,” 是 0; 其 余 位 
表示 此 数 的 幅 值 ， 如 同 符号 - 幅 值 法 一 样 ， 因 此 有 : 


n-2 
A= 2 2a, 对 于 4 三 0 


数 零 被 认为 是 正 的 ， 因 此 表示 为 符号 位 值 为 0 和 所 有 幅 值 位 都 为 0。 可 见 ， 正 整数 可 表示 的 
范围 是 由 0 (所 有 幅 值 位 全 为 0) 到 2"… -1 (所 有 幅 值 位 全 为 1)。 青 大 的 数 将 需要 更 多 的 位 。 

现在 ， 对 于 一 个 负数 4 (4 <0) ， 其 符号 位 a" El. HR n -1 位 能 取 2” 个 值 中 的 某 个 值 。 
于 是 ， 负 整数 可 表示 的 范围 是 由 -1 到 2” 。 对 于 n-1 位 值 与 负 整数 值 的 对 应 ， 我 们 希望 以 这 
样 一 种 方式 来 指派 负 整 数 的 位 值 ， 它 能 使 算术 运算 能 直截了当 地 处 理 ， 类 似 于 无 符号 整数 算术 
那样 。 在 无 符号 整数 表示 中 ， 要 从 位 值 的 表示 计算 得 到 整数 的 值 ， 是 由 各 位 乘 以 位 权 值 取 和 而 
得 到 的 ， 最 高 有 效 位 的 权 是 +2" 。 对 于 一 个 有 符号 位 的 表示 法 ， 我 们 将 会 在 9.3 节 看 到 ， 如 果 
最 高 位 的 权 是 -2” ， 那么 上 文 所 要 求 的 算术 运算 性 质 将 得 到 满足 。 这 就 是 2 的 补 码 表示 法 中 的 
约定 ， 这 个 约定 会 产生 如 下 的 负数 计算 表达 式 : 


2 的 补 码 。 A =-2"a, + Ș z'a, (9.2) 


在 正 整数 情况 下 ，o,_, = 0,， 故 -2" oa, ,=0， 这 样 该 表达 式 定义 了 一 个 非 负 整数 。 因 此 ， 
A (9.2) 定义 了 正 数 和 负数 的 2 的 补 码 表示 法 。 

表 9-2 比较 了 4 位 二 进 制 整数 的 符号 - 幅 值 和 2 的 补 码 两 种 表示 法 。 虽 然 2 的 补 码 表 示 法 看 似 
与 人 们 的 习惯 有 些 别 扭 。 但 我 们 将 会 看 到 对 于 大 多 数 最 重要 的 运算 ， 加 法 和 减法 ， 它 是 极其 方便 
的 。 正 因为 如 此 ， 几 乎 所 有 的 处 理 器 都 是 采用 此 法 来 表示 整数 。 


表 9-2 4 位 二 进 制 整数 的 各 种 表示 法 
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( 续 ) 














十 进 制 表示 符号 - 幅 值 表示 2 的 补 码 表示 移 码 表示 (Biased Representation) 

















=5 1101 0010 
一 十 

=6 1110 0001 

-7 1111 0000 








E> Zs 





往 左 每 一 个 邻接 的 位 置 其 值 加 倍 ， 直 到 最 左 端 ， 
但 最 左 端的 值 是 负 的 。 正 如 图 9-2a 所 示 ， 它 能 
以 2 的 补 码 表示 的 最 小 负数 是 -2 …; 如 果 非 符 a) 一 个 8 位 置 的 2 的 补 码 值 合 
号 位 的 其 他 位 有 的 是 1， 那 么 就 表示 要 把 对 应 的 -1283| 64 | 32] 16 | 8s| Į 
某 个 正 数 加 到 最 小 负数 -2" 上 。 还 有 ， 负 数 的 < ik 
最 左 位 必定 是 1， 正 数 的 最 左 位 必定 是 0， 这 一 b) 将 二 进 制 10000011 转 换 到 十 进 制 
点 是 很 清楚 的 。 于 是 ， 最 大 的 正 数 是 一 个 0 开 J 
头 ， 后 面 跟着 全 是 1 HH, WSF" -1。 

图 9-2 的 其 余部 分 用 于 说 明 ， 可 以 使 用 值 盒 
子 将 2 的 补 码 转换 成 十 进 制 ， 以 及 由 十 进 制 转 
换 成 2 的 补 码 。 


9.2.3 不 同位 长 间 的 转换 


有 时 取 来 一 个 nn 位 整数 需要 以 m 位 来 保存 ， 这 里 m >n， 对 于 符号 - 幅 值 表示 法 ， 这 是 很 容易 
完成 的 : 简单 地 将 符号 位 移 到 新 的 最 左 位 置 上 ， 多 余 出 的 空位 全 填充 为 0。 例 如 : 
+18 =00010010 (符号 - 幅 值 ，8 位 ) 
+18 =0000000000010010 (符号 - 幅 值 ，16 位 ) 
-18 =10010010 (符号 - 幅 值 ，8 位 ) 
— 18 =1000000000010010 (符号 - 幅 值 ，16 位 ) 
这 种 做 法 对 于 2 的 补 码 的 负数 则 不 行 ， 使 用 同样 的 例子 : 
+18 =00010010 (2 的 补 码 ，8 位 ) 
+18 =0000000000010010 (2 的 补 码 ，16 位 ) 
-18 = 11101110 (2 的 补 码 ，8 位 ) 
—32 658 = 1000000001101110 (2 的 补 码 ，16 位 ) 
倒数 第 2 行使 用 图 9-2 所 示 的 值 盒子 很 容易 判断 ， 而 最 后 一 行 则 可 用 等 式 (9.2) 或 16 位 值 
盒子 来 检验 。 
因此 ， 与 符号 - 幅 值 的 扩展 规则 不 同 ，2 的 补 码 整数 的 扩展 规则 是 ， 移 符号 位 到 新 的 最 左 位 ， 
其 余 空 出 位 均 以 符号 位 的 值 填充 。 即 对 于 正 数 填充 0， 对 于 负数 填充 1。 这 种 方式 被 称 为 符号 扩 


展 (sign extension) 。 


值 盒子 (value box) 是 说 明 2 的 补 码 表示 法 的 一 个 很 有 用 的 方法 。 盒 子 的 最 右 端 是 1(2 ) ， 











一 120= 一 128 


8 
9) 将 十 进 制 -120 转 换 到 二 进 和 制 
图 92 用 于 2 的 补 码 与 十 进 制 相互 转换 的 值 盒子 


-18 =11101110 (2 的 补 码 ，8 位 ) 
-18 =1111111111101110 (2 的 补 码 ，16 位 ) 
为 了 解释 这 个 规则 为 什么 能 工作 ,我 们 再 看 看 把 一 个 位 二 进 制 数 字 序 列 oa …aiao， 
当 作 一 个 2 的 补 码 表示 的 整数 4， 那 么 4 的 值 是 : 
A=-2""a,, + ¥ 2a, 


i=0 
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如 果 4 是 一 个 正 数 ， 那 么 规则 肯定 是 正确 的 。 现 在 假定 4 是 一 个 负数 ， 并 且 想 要 构成 一 个 m 
位 表示 ，m >n， 则 有 : 


这 两 个 值 必须 相等 : 
m-2 n-2 
-2"" + Ya, =-2"' + 20 
i=0 i=0 
m-2 ; 
ao sy. ¥ Za = ap" 
i=n-l 
m-2 ; 
+ $e, = = 2"" 
n-l 
2 m-2 m-2 
1+ D2 + 20,=1+ 2 
0 1 i=0 
m-2 m-2 , 
2a = pas 
i=n-l 
> G,,-2 = S** = 4,9 - G4, -4 =1 


从 上 面 的 第 一 个 等 式 走 到 第 二 个 等 式 ， BORER n- 1 位 在 两 种 表示 中 保持 不 变 。 再 看 倒 
数 第 二 个 等 式 ， 只 有 从 第 n-1 位 到 第 mm-2 位 上 的 位 置 全 为 1， 等 式 才 成 立 。 所 以 ,规则 是 正确 
的 。 研 究 一 下 9.3 节 开 头 的 2 的 补 码 取 负 的 讨论 ， 你 可 能 更 容易 理解 这 个 符号 扩展 的 规则 。 


924 定点 表示 法 
最 后 应 指出 ， 本 节 所 讨论 的 表示 法 有 时 称 为 定点 (fixed point) 表示 法 。 这 是 因为 小 数 点 


(二 进 制 小 数 点 ) 是 固定 的 ， 并 且 被 假定 为 在 最 低位 数字 的 右边 。 程 序 员 可 使 用 定点 表示 法 来 表 
示 二 进 制 小 数 ， 方 法 是 适当 地 降低 数量 级 ， 使 得 小 数 点 隐 含 地 设置 在 某 个 其 他 位 置 上 。 


93 ”整数 算术 
本 节 考 察 2 的 补 码 表 示 的 数 的 常用 算术 功能 。 


9.3.1 Mh 


在 符号 - 幅 值 表示 法 中 ， 求 一 个 整数 的 负数 的 规则 是 简单 的 : 只 需 将 符号 位 取 反 。 在 2 的 补 
码 表示 法 中 ， 求 一 个 整数 的 负数 可 用 如 下 规则 : 

(1) 将 整数 的 每 一 位 〈 包 括 符号 位 ) 取 反 (布尔 反 ) ， 即 把 每 个 1 变 为 0， 每 个 0 变 为 1。 

(2) 将 此 取 反 结果 作为 一 个 无 符号 二 进 制 整数 对 待 ， 加 1。 

上 述 两 步骤 称 作 2 的 求 补 运算 (twos complement operation) ， 或 求 整数 的 2 的 补 ， 例如: 


按 位 取 反 = 11101101 
+ lai 


11101110 ` 
若 对 此 数 再 取 负 ， 则 正如 我 们 预料 到 的 ， 取 负 再 取 负 将 是 原来 那个 数 : 
-18 = 11101110 (2 的 补 码 ) 
按 位 取 反 = 00010001 


十 1 
00010010 = * 18 
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可 使 用 2 的 补 码 表示 定义 式 (9.2) 来 说 明 刚才 介绍 的 操作 的 有 效 性 。 用 nn 位 二 进 制 数 字 序 
列 a,_1a,_，…aiao， 来 表示 一 个 2 的 补 码 整数 4， 它 的 值 是 


n-2 
A =-2""'a,, + ¥2'a; 
i=0 


现在 构造 按 位 取 反 的 位 串 ，o, ,oa >…ao。 然 后 把 这 个 取 反 后 的 位 串 当 作 一 个 非 负 整数 ， 并 
M1, Ba, ISB n 位 二 进 制 数字 当 作 一 个 2 的 补 码 表示 的 整数 。 于 是 ，B 的 值 是 


B=-2"'a,,+1+ ¥ 2a, 
这 么 做 之 后 我 们 期 望 等 式 4= -8B 成 立 ， 即 A+B=0。 这 很 容易 验证 是 正确 的 。 


n-2 
A+B =-(a,,+4,,)2"' +1+ (Zlata) ) 
i=0 


=- 414 (¥2') 
= =2"' 414 (2""=1) 
= 2"! 29 
上 述 推导 过 程 假设 了 我 们 可 以 把 4 取 反 后 的 数 作为 一 个 无 符号 整数 ， 以 便 完 成 加 1 的 操作 ， 
然后 又 把 加 的 结果 作为 一 个 2 的 补 码 表 示 的 整数 。 这 里 有 两 个 特殊 情况 需要 考虑 。 第 一 种 情况 ， 
考虑 4 =0。 此 时 ， 对 于 一 个 8 位 的 表示 : 
0 = 00000000 (2 的 补 码 ) 
按 位 取 反 = 11111111 
十 1 
100000000 
上 面 加 1 时， 有 一 个 从 最 高 位 发 出 的 进位 (carry) ， 可 以 忽略 该 进位 。 结 果 是 0 求 负 还 是 0， 
正如 期 望 的 那样 。 
第 二 种 情况 就 更 不 是 问题 了 。 如 果 我 们 对 位 串 1 后 面 跟 n -1 个 0 取 负 ， 我们 得 到 的 是 原来 
的 数 。 例 如 ， 对 于 一 个 8 位 的 字 (word): 


= 0 





-128 = 10000000 (2 的 补 码 ) 
按 位 取 反 = 01111111 
十 1 
10000000 = 一 128 


这 样 的 一 些 意外 情况 是 难免 的 。n 位 字 可 表示 的 不 同位 串 数目 是 2" ， 这 是 个 偶数 。 我 们 希望 
用 这 些 位 串 来 表示 正 数 、 负 数 和 零 。 如 果 能 表示 的 正 数 和 负数 的 数目 一 样 (符号 - 幅 值 ) ， 那 么 0 
就 会 有 两 种 表示 。 如 果 0 只 有 一 种 表示 (2 的 补 码 ) ， 那 么 能 表示 的 正 数 和 负数 的 数目 就 必然 不 
一 样 。 在 2 的 补 码 表示 法 中 ， 一 个 m 位 长 度 的 位 串 可 以 表示 -2"”， 却 不 能 表示 + 2°". 


9.3.2 ”加 法 和 减法 


图 9-3 表示 了 2 的 补 码 的 加 法 ， 加 法 执行 过 程 与 无 符号 整数 加 法 一 样 ， 好 像 2 的 补 码 表 示 的 
数 与 无 符号 整数 是 一 样 的 。 图 中 前 面 的 4 个 例子 展示 了 无 异常 的 运算 过 程 。 如 果 操 作 的 结果 为 
正 ， 那 么 得 到 2 的 补 码 表示 会 与 无 符号 整数 表示 是 一 样 的 。 如 果 结 果 为 负 ， 那 么 会 得 到 负数 的 2 
的 补 码 形式 。 注 意 ， 在 某 些 情况 下 ， 最 高 位 会 有 一 个 进位 ， 它 超出 了 字 的 长 度 (图 中 以 阴影 表 
示 )， 将 被 丢弃 ， 从 而 忽略 不 计 。 

对 于 任 一 加 法 操作 ， 如 果 出 现 结果 的 长 度 大 于 正 被 使 用 的 字 的 长 度 ， 那 么 这 种 状况 被 称 为 
上 溢 或 溢出 〈overflow) 。 当 上 溢出 现时 ，ALU 必须 指出 这 个 事实 ， 以 通知 其 他 部 件 不 要 试图 使 用 
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此 结果 。 判 断 上 洲 的 规则 如 下 所 述 : 

EZRM) (overflow rule): 两 个 数 相 加 ， 若 它们 同 为 正 数 或 同 为 负数 ， 则 当 且 仅 当 结 果 的 符 
号 位 变 为 相反 时 才 出 现 上 溢 。 

图 9-3e 和 图 9-3f Bae he. ER, 不 论 是 否 有 进位 ， 都 可 能 出 现 上 洲 。 

减法 也 是 很 容易 处 理 的 。 减 法 可 用 如 下 的 规则 实现 : 

减法 规则 (subtraction ule); 若 由 一 个 数 (AAA) 减 去 另 一 个 数 ( 减 数 )， 则 只 需求 出 减 
数 的 2 的 补 ( 取 负 )， 并 把 它 加 到 被 减 数 上 。 

于 是 , 减法 可 以 用 加 法 实现 ， 如 图 9-4 所 示 。 此 图 最 后 两 个 例子 说 明 上 溢 规 则 仍 是 适用 的 。 





10 
0l 
11 


ESHA) DETHE6) 


图 9-3 2 的 补 码 表示 的 数 相 加 图 9-4 两 个 2 的 补 码 表示 的 数 相 减 (M -S) 
考察 图 9-5 所 示 的 几何 描述 法 [BENH92] ， 就 能 够 加 深 对 2 的 补 码 加 减法 的 理解 。 图 中 上 部 
的 两 个 圆 是 将 相应 的 数 轴 段 以 端 到 端的 方式 连接 而 构成 的 。 注 意 ， 当 数 在 圆 上 时 ， 任 一 数 的 求 补 
(BUH) 是 其 水 平方 向 上 相对 的 那个 数 〈 用 水 平 破 折线 指示 ) 。 从 圆 上 的 任 一 数 开 始 ， 我 们 
通过 顺 时 针 方 向 移动 不 个 位 置 来 表示 加 正 数 上 《或 减负 数 E), ， 逆 时 针 方 向 移动 上 个 位 置 来 表示 减 
正 数 k (或 加 负数 k) 。 如 果 算 术 运 算 导 致 经 过 端 到 端的 连接 点 ， 则 产生 一 个 不 正确 的 答案 (at 


Hs 
减 正 数 
1 
A 


1101 








1100 -上 
1011 “We 


1010 ede 
1001 1000\ 0111 





-9-8-7-6-5-432-10123456789 ere 
a) 4 位 数 -2 -lI b) ”位 数 


图 9-5 2 的 补 码 整数 的 几何 表示 


pm 
Ql 


第 9 章 计算 机 算术 .203 








| 图 9-3 和 图 9-4 中 的 所 有 例子 都 能 很 容易 地 使 用 图 9-5 的 圆 来 描绘 。 

图 9-6 给 出 了 实现 加 法 和 减法 的 数据 通路 和 所 需 的 硬件 元 件 。 中 心 元 件 是 一 个 二 进 制 加 法 
器 ， 它 对 输入 的 两 个 数 进行 相 加 ,产生 一 个 和 以 及 一 个 
上 游 指示 。 二 进 制 加 法 器 将 两 个 数 看 作 是 无 符号 数 (二 o 
进 制 加 法 器 的 数字 逻辑 实现 请 见 第 20 章 )。 对 于 加 法 ， = 
提交 给 加 法 器 的 两 个 数 来 自 寄存 器 ， 在 图 9-6 中 是 A 和 B 
寄存 器 。 结 果 通 常 是 存 于 这 两 个 寄存 器 中 的 某 一 个 或 是 
另外 的 第 三 个 寄存 器 。 上 洲 指 示 保 存在 一 个 1 位 的 上 溢 标 
志 (overflow flag, 0 = 无 上 洪 ，1 = EM) 中 。 对 于 减法 ， 
减 数 (B 寄存 器 ) 要 通过 一 个 2 的 补 码 求 补 器 (comple- 
menter) ， 产 生 减 数 的 2 的 补 ， 并 提交 给 加 法 器 。 注 意图 。 or- 溢出 位 
9-6 只 是 显示 了 数据 通路 。 还 需要 一 些 控 制 信号 ， 根据 当  ” sw = 开关 (选择 加 法 或 减法 ) 
前 执行 的 操作 是 加 法 还 是 减法 ,来 控制 是 否 需 要 使 用 求 图 9-6 ”加 减法 硬件 框图 
补 器 。 


9.3.3 ”乘法 


与 加 法 和 减法 相 比 ， 无 论 是 以 硬件 还 是 以 软件 来 完成 ， 乘 法 都 是 一 个 复杂 的 操作 。 各 种 各 样 
的 算法 已 用 于 各 类 计算 机 中 。 本 小 节 的 目的 在 于 给 读者 某 些 关于 常用 乘法 算法 的 感性 认识 。 首 
先 ， 我 们 介绍 如 何 实现 两 个 无 符号 (ER) 整数 相 乘 的 简单 方法 ， 然 后 再 关注 实现 两 个 2 的 补 
码 表示 数 乘法 的 最 通用 技术 。 

1. 无 符号 整数 乘法 

图 9-7 说 明了 无 符号 二 进 制 整数 的 乘法 ， 就 像 我 们 用 笔 和 纸 手 工 演 
算 的 那样 。 由 此 可 以 得 出 几 点 重要 发 现 : 

(1) 乘法 涉及 部 分 积 的 生成 ， 乘 数 的 每 一 位 对 应 一 个 部 分 积 。 然 
后 ， 部 分 积 相 加 得 到 最 后 的 乘积 。 

(2) 部 分 积 是 容易 确定 的 。 当 乘 数 的 位 是 0， 其 部 分 积 也 是 0; 4 
乘 数 的 位 是 1， 其 部 分 积 是 被 乘 数 。 图 9-7 无 符号 二 进 

(3) 部 分 积 通过 求 和 而 得 到 最 后 乘积 。 因 此 ， 后 面 的 部 分 积 总 要 比 制 整数 乘法 
它 前 面 的 部 分 积 左 移 一 个 位 置 。 

(4) 两 个 n 位 二 进 制 整 数 的 乘法 可 产生 最 大 长 度 为 2n 位 的 积 (如 11 x11 =1001), 

与 笔 纸 手工 演算 相 比 ， 计 算 机 能 做 一 些 改进 使 乘法 操作 更 有 效 。 首 完 ， 可 以 边 产 生 部 分 积 边 
做 加 法 ， 而 不 是 等 到 最 后 再 相 加 。 这 就 消除 了 存储 所 有 部 分 积 的 需求 ， 从 而 减少 了 需要 的 寄存 器 
数目 。 其 次 ， 能 节省 某 些 部 分 积 的 生成 时 间 ， 对 于 乘 数 的 每 个 1， 需 要 执行 加 和 移 位 两 个 操作 ; 
但 对 于 每 个 0， 则 只 执行 移 位 操作 就 够 了 。 

图 9-8a 表示 了 一 种 采用 上 述 改 进 的 实现 方案 。 乘 数 和 被 乘 数 分 别 装 人 两 个 寄存 器 (Q 和 
M) 。 保 存 部 分 积 需 要 第 三 个 寄存 器 ， 寄 存 器 A， 初 始 设置 为 0。 还 需要 一 个 1 位 寄存 器 C， 初 始 
为 0， 用 于 保存 加 法 可 能 产生 的 进位 。 

乘法 器 的 操作 如 下 。 控 制 逻 辑 每 次 读 乘 数 的 一 位 。 若 Q。 是 1， 则 被 乘 数 与 A 寄存 器 相 加 ， 
并 将 结果 存 于 A 寄存 器 。 然 后 ，C、A 和 Q 各 寄存 器 的 所 有 位 向 右 移 一 位 ， 于 是 C 位 进入 
A,， 1 ，Au 进入 Q, ,而 Qu 丢失。 若 Q, 是 0， 则 只 需要 移 位 ， 不 需要 进行 加 法 运算 。 对 原始 的 乘 
数 每 一 位 重复 上 述 过 程 。 产 生 的 2n 位 积存 于 A 和 Q 寄存 器 。 这 种 操作 的 流程 图 显示 于 图 9-9 
中 ， 图 9-8b 给 出 了 一 个 例子 。 注 意图 9-8b 中 例子 的 第 2 周期 ， 因 为 乘 数 当前 位 是 0， 所 以 该 
周期 没有 加 法 运算 。 
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b) 图 9-7 中 的 例子 (BEA Q) 
图 9-8 无 符号 二 进 制 乘法 的 硬件 实现 


图 9-9 无 符号 二 进 制 乘法 流程 图 


2. 2 的 补 码 乘法 
我 们 已 经 看 到 ， 对 2 的 补 码 表示 的 数 能 将 它们 看 作 是 无 符号 数 来 完成 加 减法 运算 。 现 在 考虑 ; 
1001 
+0011 
1100 


若 将 这 些 数 看 成 是 无 符号 整数 ， 则 是 9 (1001) 加 3 (0011) 得 到 12 (1100)。 若 看 成 是 2 
的 补 码 整数 ， 则 是 -7 (1001) 加 3 (0011) 得 到 -4 (1100), 

遗憾 的 是 ， 这 种 简单 做 法 不 能 用 于 乘法 。 为 说 明 这 点 ， 再 看 图 9-7。 我 们 是 将 11 (1011) Æ 
以 13(1101 ) 得 到 143(10001111 ) 。 若 将 其 解释 为 补 码 数 ， 则 是 -5(1011 ) 乘 以 -3(1101 ) 得 到 的 
却 是 -113(10001111) 。 这 个 例子 说 明 ， 如 果 被 乘 数 和 乘 数 都 是 负数 ， 简 单 直 接 的 乘法 将 不 能 使 
用 。 实 际 上 ， 被 乘 数 和 乘 数 只 要 有 一 个 是 负数 就 不 行 。 为 说 明 这 种 状况 ， 需 要 返回 到 图 9-7 的 例 
子 ， 借 助 2 的 寡 操 作 看 看 实际 在 做 人 什么。 回想， 任何 一 个 无 符号 二 进 制 数 都 可 表示 成 2 WHS 
Al, Fue: 

1101 =1x2?>4+1x2>4+0x2'+1x2° 
=2? +27 42° 

而 且 ， 一 个 数 乘 以 2" 可 通过 左 移 此 数 n 位 来 完成 。 理 解 了 这 
一 点 ， 可 以 看 出 图 9-10 是 对 图 9-7 的 改造 ， 以 使 部 分 积 变 得 明显 和 
完整 。 唯 一 的 不 同 在 于 ， 图 9-10 把 由 位 被 乘 数 产 生 的 部 分 积 当 作 
是 一 个 2n 位 的 数 。 - 

于 是 ， 作 为 一 个 无 符号 数 ，4 位 被 乘 数 1011 是 以 一 个 00001011 图 9-10 两 个 无 符号 4 位 整数 
的 8 位 字 来 保存 的 。 每 个 部 分 积 (对 应 除了 2 这 一 位 之 外 的 其 他 相 乘 产生 8 位 结果 
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非 0 乘 数位 ) 由 这 个 数 左 移 ， 并 且 空 出 位 以 0 填充 而 组 成 (例如 ， 此 数 左 移 两 次 产生 00101100) 。 

现在 我 们 来 说 明 ， 若 被 乘 数 是 负数 ， 为 什么 简单 
直接 的 乘法 是 不 能 工作 的 。 问 题 在 于 ， 作 为 负 的 被 乘 
数 ， 其 每 次 得 出 的 部 分 积 必 须 是 2n 位 字 长 的 负数 








部 分 积 的 符号 位 必须 一 同 设置 。 这 可 由 图 9-11 说 明 ， 加 a) Je 号 数 b) 补 码 数 
它 表 示 的 是 1001 乘 以 0011。 若 这 些 数 被 看 作 是 无 符 


图 9-11 无 符号 数 和 补 码 数 
号 数 ， 则 是 9 x3 =27， 处 理 很 简单 。 然 而 ， 若 把 1001 的 整数 乘法 比较 


看 作 是 补 码 数 -7， 则 每 个 部 分 积 必须 是 2n 位 (8 位 ) 
的 负 的 补 码 数 ， 如 图 9-11b 所 示 。 注 意 ， 这 要 求 用 部 分 积 左边 填充 1 来 完成 。 

应 该 清楚 ， 若 乘 数 是 负数 ， 那 种 简单 直接 的 乘法 也 是 不 能 工作 的 。 理 由 是 乘 数 的 各 位 不 再 对 
应 于 必须 发 生 的 移 位 或 乘法 操作 。 例 如 ， 十 进 制 数 -3 的 四 位 补 码 表示 为 1011。 如 果 采 用 简单 的 
按 位 操作 来 取 部 分 积 ， 则 会 有 如 下 的 对 应 结果 : 

1101<—> - (1 x2? FIXI +0x2' 4+1x2°) = = +2? +2°) 
实际 上 ，1101 对 应 的 是 - (2 +2")。 因 此 负 的 乘 数 不 能 直接 用 于 上 面 所 描述 的 方式 。 

有 几 种 摆脱 这 种 困境 的 方法 。 一 是 把 被 乘 数 和 乘 数 都 转变 成 正 数 再 相 乘 ， 然 后 当 且 仅 当 两 
个 原始 数 的 符号 不 同时 ， 其 结果 取 其 2 的 补 ( 即 取 负 )。 
乘法 电路 实现 者 更 喜欢 采用 上 述 最 后 转换 步骤 的 方法 。 其 
中 一 种 广 为 使 用 的 方法 是 布 斯 (Booth) 算法 。 这 种 方法 
还 有 一 个 好 处 ， 与 前 面 介 绍 的 无 符号 数 直 接 乘法 相 比 它 能 
加 速 乘法 过 程 。 

图 9-12 给 出 了 布 斯 算法 框图 ， 可 做 如 下 描述 。 与 前 
文 相同 ， 乘 数 和 被 乘 数 分 别 放 和 人 Q 和 M 寄存 器 内 。 这 里 
也 有 一 个 1 位 寄存 器 ， 逻 辑 上 位 于 Q 寄存 器 最 低位 (Qo) 
的 右边 ， 并 命名 为 Q_,; 它 的 用 途 下 面 即将 说 明 。 乘 法 的 
结果 将 保存 在 A 和 Q 寄存 器 中 。A 和 Q _, 初 始 化 为 0。 与 
前 文 相同 ， 控 制 逻辑 也 是 每 次 扫描 乘 数 的 一 位 。 只 不 过 现 
在 是 检查 某 一 位 时 ， 它 右边 的 一 位 也 同时 被 检查 。 若 两 位 
相同 (1 -1 或 0-0)， 则 A、Q 和 Q_ 寄 存 器 的 所 有 位 向 
右 移 一 位 。 攻 两 位 不 同 ， 根 据 两 位 是 0 -1 或 1-0， 则 被 
乘 数 被 加 到 A 寄存 器 或 由 A 寄存 器 减 去 ， 加 减 之 后 再 右 —_ ii 
移 。 无 论 哪 种 情况 ， 右 移 是 这 样 进 行 的 : A 的 最 左 位 ， 即 图 9-12 2 的 补 码 乘法 的 布 斯 算法 
A, MRA A,,， 而 且 仍 保留 在 A,_, 中 。 这 要 求 保 
留 A 和 Q 中 数 的 符号 。 这 种 移 位 称 为 算术 移 位 (arithmetic shift) ， 因 为 它 保留 了 符号 位 。 

图 9-13 为 7 乘 以 3 时 布 斯 算法 的 操作 顺序 。 图 9-14a 给 出 同样 操作 的 更 紧凑 表示 。 图 9-14 其 
余部 分 给 出 其 他 例子 。 正 如 所 示 ， 对 于 任何 
正 负 数 的 组 合 ， 布 斯 算法 都 能 工作 得 很 好 。 
同时 注意 此 算法 的 效率 ， 连 续 的 1 串 或 0 串 都 
可 以 跳 过 ， 只 在 每 串 开 头 和 结尾 有 加 法 或 减 
法 ,平均 而 言 每 串 一 次 。 

布 斯 算法 为 什么 能 得 到 正确 结果 ? 首先 
可 以 考虑 正 乘 数 的 情况 。 具 体 来 说 ， 考 虑 一 
个 由 全 为 1 的 块 两 边 是 0 的 乘 数 ， 例 如 
00011110。 如 前 文 所 述 ， 乘 法 能 通过 将 被 乘 数 Æ 9-13 布 斯 算法 举例 (7 x3) 
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适当 左 移 的 副本 相 加 来 实现 : 
M x (00011110) =M x (2* +2? +27 +2') 
=Mx(16+8+4+2) 
=M x30 
这 种 操作 数目 能 减少 到 两 个 ， 如 果 我 们 能 
发 现 : 
242°! pee 2" “=2" -2"* (9.3) 


a) (7) x (3)=(21) B(x (-3)=(-21) 
M x (00011110) =M x (2° -2') | 





=M x (32-2) 
=M x30 
因此 可 通过 被 乘 数 的 一 次 加 法 和 一 次 减法 来 得 国 攻 了 21) | 00010101 (21) 
到 积 。 这 种 策略 可 以 扩展 到 乘 数 中 有 任何 数目 A DCA «CH= 
(连续 ) 的 1 的 块 ， 包 括 把 单个 1 也 看 作 一 个 图 9-14 ”使 用 布 斯 算法 举例 


块 的 情况 。 于 是 有 : 
M x (01111010) =M x (2° +2° +2° +27 +2') 
=Mx(27 -2 427-2) 
布 斯 算法 以 下 述 方式 执行 这 种 策略 ， 当 遇 到 一 串 1 的 第 一 个 1 时 (1 -0) ， 执 行 一 次 减法 ， 
当 遇 到 一 串 1 的 最 后 一 个 1 时 (0 -1) ， 执 行 一 次 加 法 。 
为 说 明 对 于 一 个 负 的 乘 数 这 样 的 策略 照样 能 工作 ， 我 们 需要 做 如 下 的 推导 。 假 设 式 是 一 个 2 
的 补 码 表示 的 负数 ， 其 表示 为 : 
的 表示 = {| 1x, 2%, 3…Xixo| 
的 值 则 可 表示 成 : 
X= -2 +(x, x2") +(X 3 X2") + + (x x2") + (x x2") (9.4) 
读者 可 将 式 (9.4) 应 用 到 表 9-2 中 的 数 来 验证 。 
现在 我 们 知道 X 的 最 左 位 是 1， 因 为 X 是 一 个 负数 。 假 定 最 左 的 0 在 第 位 上 ， 于 是 的 表 
示 为 : 
对 的 表示 = 1111…10x，,x， xxo| : (9.5) 
其 值 为 : 
Y= oP" 42" gee 2" FR KO) eo ee, SD (9.6) 
现在 ， 由 式 (9.3) 可 知 : 


pin Rr dave BOM = 7-1 o hii 


重新 排列 : 
— Ql A aoa cea eet? = eth (9.7) 
将 式 (9.7) RAR (9.6) ， 得 到 : 
X= -2'*) 4 (xp X25) + 二 (2 x2°) (9.8) 


AF iB BARI T o WE X WAN (sh (9.5) ) ， 这 一 点 是 清楚 的 : 从 xo 起 到 最 左 的 0 
的 所 有 位 都 能 被 这 样 处 理 ， 因 为 它们 产生 式 (9.8) 中 除去 ( -2 …) 项 之 外 的 所 有 项 。 当 算法 
扫描 经 过 最 左 的 0 而 遇 到 1(2…) 时 ， 出 现 一 个 1 -0 变化 ， 于 是 一 个 减法 发 生 ( -2'")。 这 是 
式 (9.8) 的 最 后 一 个 剩余 项 。 

作为 一 个 例子 ， 让 我 们 考察 某 个 数 M 乘 以 〈 -6) 。 若 字 长 为 8 位 , W ( -6) 的 补 码 表示 式 
为 11111010。 由 式 (9.4) 可 知 : 

-6 = 一 2 +2° 42° +2* +2? -21 

这 个 读者 可 以 很 容易 验证 。 于 是 有 : 
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M x (11111010) =Mx(-2 +2° +2° +2* +2 +2') 
使 用 式 (9.7), 
Mx(11111010) =M x ( -2° +2') 
读者 不 难 验 证 这 还 是 M x ( -6)。 最 后 ,依据 前 面 阐述 的 理由 ， 最 终 得 出 : 
M x (11111010) =M x ( -2? +2? -2') 

现在 ,我 们 清楚 地 看 出 布 斯 算法 是 遵守 上 述 操作 方式 的 。 它 从 最 低位 开始 ， 当 直到 第 一 个 1 时 
(1 -0) ， 它 执行 一 次 减法 ; 当 遇 到 (0-1) 时 ， 它 执行 一 次 加 法 ; 最 后 遇 到 下 一 个 全 是 1 串 的 第 一 个 
1 时 ， 又 完成 另 一 次 减法 。 于 是 ， 布 斯 算法 与 直接 移 位 相 加 的 算法 相 比 只 需 完成 较 少 的 加 法 和 减法 。 


9.3.4 除法 


除法 要 比 乘法 更 复杂 ， 但 也 是 基于 同样 的 通用 原则 。 同 前 述 一 样 ， 算 法 的 基础 是 纸 和 笔 的 演 
算 方法 ， 并 且 操 作 涉及 重复 的 移 位 和 加 或 减 。 

图 9-15 表示 的 是 一 个 无 符号 二 进 制 整数 长 除 除数 一 一 > 1011 /TooT001T = — papas 
(long division) 的 例子 。 详 细 描 述 这 个 过 程 是 有 | 
指导 意义 的 。 首 先 ， 从 左 到 右 检 查 被 除数 的 位 ， 
直到 被 检查 的 位 所 表示 的 数 大 于 或 等 于 除数 ; 这 
被 称 为 除数 能 去 “ 除 ” 此 数 。 直 到 这 个 事件 发 生 





之 前 ， 一 串 0 从 左 到 右 被 放 人 到 商 中 。 当 上 述 事 图 9-15 “无 符号 二 进 制 束 
件 发 生 时 ， 一 个 工 被 放 入 商 ， 并 且 从 这 个 部 分 被 数 的 除法 举例 


除数 中 减 去 除数 。 结 果 称 为 部 分 余 (partial re- 
mainder) 。 由 此 开始 除法 呈现 一 种 循环 样式 。 在 
每 一 次 循环 中 ， 被 除数 的 其 他 位 续 加 到 部 分 余 
上 ， 直 到 所 构成 的 数 大 于 或 等 于 除数 。 同 前 面 一 
样 ， 除 数 由 这 个 数 中 减 去 并 产生 新 的 部 分 余 。 此 
过 程 继续 下 去 ， 直 到 被 除数 的 所 有 位 都 被 用 完 。 

图 9-16 表示 了 对 应 此 长 除 过 程 的 机 器 算法 。 
除数 放 入 M 寄存 器 ， 被 除数 放 在 Q 寄存 器 中 。 每 
一 步 A 和 Q 寄存 器 一 起 左 移 1 位。 然后 A 减 M 以 
确定 A 是 否 能 分 出 部 分 余 2? 来 。 若 够 减 ， 则 Q 位 
变 为 1。 否则，Q MAO, 并且 M 必须 被 返 加 到 
A 以 恢复 原先 的 值 。 计 数值 然后 减 1， 此 过 程 持 
续 进行 n 步 。 结 束 时 ， 商 保存 在 Q 寄存 器 中 ， 余 
数 保存 在 A 寄存 器 中 。 

这 个 过 程 能 扩展 到 用 于 负数 ,但 有 一 些 难 
度 。 我 们 给 出 一 个 用 于 2 的 补 码 数 的 方法 ， 这 种 
方法 的 几 个 例子 显示 于 图 9-17 中 。 

该 算法 假设 除数 V 和 被 除数 D REER, H 
IVI < 1D1。 如 果 1VI = 1D1， 那 么 商 Q《 =1， 且 余数 R=0。 如 果 IVI > 1D1， 那么 商 0 =0， 且 余数 
R=D。 算法 可 概括 如 下 : 

(1) 把 除数 的 2 的 补 装 和 人 M 寄存 器 ,实际 上 是 把 除数 的 相反 数 装 入 M 寄存 器 。 被 除数 装 入 
A、Q 寄存 器 。 被 除数 必须 以 2n 位 的 正 数 来 表示 。 例 如 ,4 位 0111 变 成 00000111。 





à 商 在 Q 中 
© 余数 在 A 中 


9-16 无 符号 二 进 制 除法 流程 





O 这 是 一 个 无 符号 减法 ， 若 结果 产生 了 最 高 位 向 上 的 借 位 ， 则 是 不 够 减 。 
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(2) A，Q 左 移 1 位 。 
(3) 执行 Ac-A -M。 这 个 操作 从 寄存 器 A 的 值 中 减 去 除数 。 
(4) a) 若 上 一 步 的 减法 结果 为 非 负 (寄存 
器 A 的 最 高 位 = 0)， 则 置 Q <1. 
b) 若 上 一 步 减法 结果 为 负 (寄存 器 A 
的 最 高 位 = 1) ， 则 置 Qu 二 0， 并 恢 
复 寄存 器 A 的 原 值 。 
(5) 重复 (2) 到 (4) 步 ，Q 有 多 少 位 就 重 
复 多 少 次 。 
(6) 余数 在 A 中 ， 商 在 Q 中 。 
为 了 处 理 负 数 ， 我 们 考虑 余数 定义 为 : 
D=QxV+R 
(这 里 D= 被 除数 ，Q = 商 ,V = 除数 ，R= 余 
数 ) 





图 9-17 恢复 余数 (Restoring) 的 2 的 


考虑 下 面 的 整数 除法 例子 ， 其 中 包括 D 和 V 补 码 除法 举例 (7/3) 
的 所 有 可 能 的 符号 组 合 。 
D=7 Ve3 => Q=2 R=1 
PaF V=-3 => Q=-2 Rel 
D=-7 V=3 => Q=-2 R=-1 
D=-7 V=-3 => Q=2 R=-1 


读者 可 能 注意 到 图 9-17 中 ( -7) 7 (3) 和 (7) / (-3) 产生 不 同 的 余数 。 不 过 可 以 发 
现 ，Q 和 RR 的 绝对 值 并 不 受 被 除数 和 除数 符号 的 影响 。 而 8 和 RR 的 符号 不 难 从 被 除数 D 和 除数 了 
的 符号 推导 出 来 。 具 体 而 言 ，sign(R) = sign(D), 而 sign(Q) =sign(D) xsign(Y) 。 因 此 ， 实 现 
2 的 补 码 除法 的 一 种 方法 就 是 把 操作 数 都 转换 为 无 符号 绝对 值 ， 进 行 除 法 运算 ， 最后， 根据 被 除 
数 和 除数 的 符号 来 设置 商 和 余数 的 符号 。 这 正 是 恢复 余数 除法 算法 所 选取 的 方式 【PARH00]。 


9.4 FART 
9.41 原理 


使 用 定点 表示 法 〈 例 如 ，2 的 补 码 ) 能 表示 以 0 为 中 心 一 定 范围 内 的 正和 负 的 整数 。 通 过 重 
新 设 定 小 数 点 的 位 置 ， 这 种 格式 也 能 用 来 表示 带 有 小 数 部 分 的 数 。 

不 过 这 种 方法 有 明显 的 限制 ， 它 不 能 表示 很 大 的 数 ， 也 不 能 表示 很 小 的 分 数 。 而 且 当 两 个 大 
数 相 除 时 ， 商 的 小 数 部 分 可 能 会 丢失 。 

对 于 十 进 制 数 ， 人 们 解除 这 种 限制 的 方法 是 使 用 科学 计数 法 (scientific notation), FÆ, 
976 000 000 000 000 可 表示 成 9.76 x10", mii 0. 000 000 000 000 097 6 可 表示 成 9.76 x 10°", X 
际 上 我 们 所 做 的 只 是 动态 地 移动 十 进 制 小 数 点 到 一 个 合适 的 位 置 ， 并 使 用 10 的 指数 来 保持 对 此 
小 数 点 位 置 的 跟踪 。 这 就 允许 只 使 用 少数 几 个 数字 来 表示 很 大 范围 的 数 和 很 小 的 数 。 

这 样 的 方法 也 可 用 于 二 进 制 数 。 可 以 使 用 如 下 形式 表示 一 个 数 : 

+SxB** 

这 样 的 数 保存 在 一 个 二 进 制 字 的 三 个 字段 中 。 

e 符号 : 正 或 负 。 

e 有 效 值 S(significand ) 。 

© 指数 或 者 称 为 阶 E (exponent) 。 

指数 的 底 或 基 B (base) 是 隐 含 的 ， 因 此 是 不 需要 存储 的 ， 因 为 对 所 有 的 数 它 都 是 相同 的 。 
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通常 ， 小 数 点 位 置 被 约定 在 最 左 〈 最 高 ) 有 效 位 的 右边 ， 即 小 数 点 左边 有 | 位 。 

最 好 以 例子 来 说 明 用 于 表示 二 进 制 浮 点 数 的 原则 。 图 9-18a 表示 了 一 个 典型 的 32 位 浮 点 格 
式 。 最 左 位 保存 数 的 符号 (0 = 正 ，1= 负 )。 阶 值 存 于 位 1 到 位 8， 所 用 的 表示 法 是 称 为 移 码 
(biased) 的 表示 法 。 从 字段 中 减 去 一 个 称 为 偏 移 量 (bia) 的 固定 值 ， 才 得 到 真正 的 指数 。 通 
常 ， 偏 移 量 等 于 2 -1, k 是 二 进 制 指数 的 位 数 。 在 此 例子 中 ,一 个 8 位 字段 能 表示 的 数 是 0 ~ 
255。 取 偏 移 量 为 127 (B2 -1) ， 则 真实 阶 值 的 范围 是 - 127 ~ +128。 此 例 中 阶 值 的 底 被 认为 
是 2。 

表 9-2 给 出 了 4 位 整数 的 移 码 表示 。 注 意 ， 当 移 码 表示 法 的 各 位 被 作为 一 个 无 符号 整数 对 待 
时 ， 其 数 的 大 小 相对 关系 并 不 改变 。 例 如 ， 在 无 符号 数 和 移 码 两 种 表示 法 中 ， 都 是 1111 最 大 ， 
0000 最 小 ; 然而 ， 这 在 符号 - 幅 值 或 2 的 补 码 表示 法 中 却 不 是 真 的 了 。 使 用 移 码 表示 法 的 好 处 在 
于 ， 非 负 的 浮 点 数 能 作为 整数 对 待 ， 便 于 进行 比较 。 





a) 格式 
1.1010001 x 210100 = 0 10010011 10100010000000000000000 = ia x oe 
-1.1010001 x 210100 = 1 1001001] 101 00010000000000000000 =-1.6328125 x 2 


-11010001 x 2710100 = ?8110101 10100010000000000000000 = .6328125 x 220 
b) 举例 


图 9-18 典型 的 32 位 浮 点 格式 
字 的 最 后 一 部 分 是 有 效 值 ” (上 例 中 是 23 位 )。 


任 一 浮 点 数 都 能 以 多 种 样式 来 表示 。 以 下 各 式 是 等 价 的 ， 这 里 的 有 效 数 以 二 进 制 格式 表示 : 
0. 110 x25 
110 x2? 
0. 0110 x 2° 


为 了 简化 浮 点 数 的 操作 ， 一 般 需要 对 它们 进行 规格 化 (normalize)。 一 个 规格 化 的 数 是 一 个 
有 效 值 的 最 高 有 效 位 为 非 零 的 数 。 对 于 二 进 制 表示 法 ， 一 个 规格 化 数 是 它 的 有 效 值 的 最 高 有 效 位 
是 1。 正如 前 面 所 述 ， 通 常 约定 小 数 点 左边 有 1 位 。 于 是 ， 一 个 规格 化 的 非 零 数 具有 如 下 格式 ; 

+1. bbb…b x2** 

这 里 的 b 是 二 进 制 数字 (0 或 1) 。 这 意味 着 有 效 值 的 最 左 位 必须 总 是 1。 因 此 也 没 必 要 总 存 
储 这 个 1， 所 以 它 成 为 隐 含 的 。 于 是 23 位 有 效 值 字段 能 用 于 存储 24 位 有 效 数 字 ， 其 值 范围 在 半 
FKH [1，2) 。 对 于 一 个 非 规格 化 的 数 ， 通 过 移动 小 数 点 直到 最 左 一 个 1 的 右边 并 相应 调整 阶 
值 ， 就 可 以 将 此 数 规格 化 。 

图 9-18b 给 出 几 个 以 这 种 规格 化 形式 存储 的 数 的 例子 。 其 中 每 个 例子 左边 是 二 进 制 数值 ， 中 
间 是 对 应 的 二 进 制 位 串 表 示 ， 右 边 是 十 进 制 数值 。 注 意 如 下 特征 : 

。 符号 总 是 位 于 字 的 第 1 位 。 

。 真实 有 效 值 的 第 1 位 总 是 1， 并 且 不 需要 存 于 有 效 值 字段 中 。 

e 值 127 加 到 真实 阶 值 后 再 存 人 阶 值 字 段 中 。 

© 阶 的 底 是 2。 

为 做 比较 ， 图 9-19 显示 了 这 种 表示 法 的 32 位 字 能 表示 的 数 的 范围 。 使 用 2 的 补 码 整数 表示 

















O 用 于 替代 有 效 值 的 术语 是 尾数 ( mantissa) ， 但 尾数 有 些 过 时 了 。 尾 数 亦 用 于 表示 对 数 的 小 数 部 分 ， 因 此 在 本 书 中 
尽量 避免 使 用 。 
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法 ， 由 -2 ”到 2” -1 的 所 有 整数 都 能 被 表示 ， 总 计 2 ”个 不 同 的 数 。 以 图 9-18 的 浮 点 格式 为 例 ， 
可 以 表示 如 下 范围 的 数 : 
。 介 于 - (2-2) x2”“ 和 -2 之 间 的 负数 。 
。 介 于 2 和 (2-2) x2 之 间 的 正 数 。 
可 表示 的 整数 
一 一 人 一 一 


a) 2 的 补 码 整 数 
负 下 溢 ER 
负 上 溢 可 表示 的 负数 N o /可 表示 的 正 数 EER 


零 
FE 






-(2-2-23)x 2128 -21277 0 7" (2-2-23) x 2128 
b) 浮 点 数 
图 9-19 典型 32 位 格式 可 表示 的 数 
数 轴 上 有 5 个 区 间 不 包括 在 这 些 范 围 内 : 


。 比 -(2-2“) x2” 还 小 的 负数 ， 叫 做 负 上 浇 (negative overflow) 。 

。 比 -2 还 大 的 负数 ， 叫 做 负 下 洲 (negative underflow) 。 

e, 

e 比 2 一 还 小 的 正 数 ， 叫 做 正 下 洪 (positive underflow) 。 

© (2-2) x2”“” 还 大 的 正 数 ， 叫 做 正 上 浇 (positive overflow) 。 

正如 上 面 提 到 的 ， 这 种 表示 法 不 适合 值 0 的 表示 。 然 而 ， 下 面 将 会 看 到 ， 可 以 把 一 个 专门 的 
位 串 定义 成 零 。 当 算术 运算 的 结果 其 幅 值 比 指数 128 能 表示 的 幅 值 还 大 时 ， 则 出 现 上 溢 (例如 ， 
2 x2 =2™) 。 当 小 数 的 幅 值 太 小 时 (olan, 2° x2 =2)， 则 出 现下 溢 。 下 溢 不 是 一 
个 严重 问题 ， 因 为 其 结果 通常 足够 小 而 可 以 近似 成 0。 

注意 ， 使 用 浮 点 表示 法 并 不 能 使 我 们 表示 出 更 多 的 值 。 以 32 位 二 进 制 位 串 能 表示 不 同 值 的 
最 大 数目 仍 是 2”。 我们 所 做 的 ， 实际 上 只 是 把 这 些 数 沿 数 轴 正 负 两 个 方向 在 更 大 范围 内 分 布 。 
在 实际 应 用 中 ， 大 多 数 浮 点 数 只 是 用 户 真 正 想 表示 数值 的 一 个 近似 。 不 过 ， 对 于 不 是 很 大 的 整数 
而 言 ， 浮 点 表示 还 是 精确 的 。 

还 应 注意 ， 浮 点 表示 的 数 不 再 像 定点 数 那 样 沿 数 轴 等 距 分 布 ， 而 是 越 靠近 原点 ， 数 越 密集 ， 


越 远离 原点 ， 数 越 稀 玖 ， 如 图 9-20 所 示 。 这 是 浮 点 算 

术 的 重要 特点 之 一 : 多 数 计算 的 结果 并 不 是 严格 精确 | | | j Mk a 
， 必 须 进行 ， 以 使 结果 达到 所 能 表示 

m BUTI A, MEE RABEN chy na 


以 图 9-18 所 示 的 格式 类 型 为 例 ， 范围 (range) 和 精度 (precision) 是 要 权衡 考虑 的 问题 。 
例子 是 8 位 用 于 阶 ，23 位 用 于 有 效 数 。 若 增加 阶 的 位 数 ， 就 扩充 了 可 表示 数 的 范围 。 但 是 ， 总 
的 位 数 是 不 变 的 ， 因 此 能 表示 的 数 的 总 数 也 是 固定 不 变 的 ， 于 是 实际 效果 是 减少 了 这 些 数 的 密 
度 ， 因 而 也 就 降低 了 精度 。 既 能 增加 范围 ， 又 能 增加 精度 的 唯一 途径 是 使 用 更 多 的 位 。 于 是 ， 大 
多 数 计算 机 都 至 少 提供 单 精度 和 双 精 度 两 种 浮 点 数 。 例 如 ， 单 精度 格式 是 32 位 ， 双 精度 格式 是 
64 位 。 

这 还 只 是 一 个 阶 值 位 数 和 有 效 值 位 数 之 间 的 折 中 问题 。 还 有 一 个 问题 比 它 要 复杂 ， 隐 含 的 
阶 值 的 底 并 不 需要 总 是 2。IBM S/390 结构 就 是 一 个 使 用 底 为 16 的 例子 [ANDE67b] ， 其 浮 点 数 
格式 由 7 位 阶 值 和 24 位 有 效 值 组 成 。 
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按照 IBM 底 为 16 的 格式 : 
0. 11010001 x2™™ =0. 11010001 x 16™ 
于 是 所 存 的 阶 值 是 5 而 不 再 是 20。 
使 用 较 大 底 的 优点 在 于 同样 数目 的 阶 值 位 能 表示 的 数 的 范围 更 大 。 但 是 ， 要 记 住 ,我 们 并 没 
有 增加 所 能 表示 的 数 的 总 数 。 因 此 ， 对 一 种 固定 格式 而 言 ， 更 大 的 底 能 给 出 更 大 的 表示 范围 ,但 
以 牺牲 精度 为 代价 。 


9.4.2 二 进 制 浮 点 表示 的 IEEE 标准 


最 重要 的 浮 点 表示 法 是 在 1985 年 通过 的 IEEE 754 标准 中 所 定义 的 浮 点 表示 法 [IEEE85] 。 
开发 这 个 标准 是 为 了 提高 程序 从 一 种 处 理 器 移植 到 另 一 种 处 理 器 上 的 可 移植 性 ， 也 为 了 促进 研 
制 更 为 复杂 的 数值 运算 程序 。 这 个 标准 获得 了 广泛 的 认可 ， 并 已 经 用 于 当代 各 种 处 理 器 和 算术 
协 处 理 器 中 。 

IEEE 754 标准 定义 了 32 位 的 单 精度 和 64 位 的 双 精 度 两 种 格式 ( 见 图 9-21) ， 它 们 的 阶 值 字 
段 分 别 是 8 位 和 11 位 ， 隐 含 的 底 是 2。 另 外 ， 标 准 还 定义 了 单 精度 ， 双 精度 的 扩展 格式 ， 但 它们 
的 具体 格式 是 与 实现 相关 的 。 扩 展 格式 包括 在 阶 值 字段 提供 更 多 的 位 (扩展 范围 ) 和 在 有 效 什 
字段 提供 更 多 的 位 (扩展 精度 ) 。 扩 展 格式 将 被 用 于 中 间 计 算 过 程 。 由 于 它们 有 更 高 精度 ， 扩 展 
格式 使 得 最 终结 果 避 免 被 过 量 伟人 ， 从 而 减少 加 大 误差 的 机 会 ;由 于 它们 有 更 大 表示 范围 ， 扩 展 
格式 也 使 计算 过 程 中 出 现 上 溢 的 机 会 减少 ， 这 样 如 果 计算 的 最 终结 果 能 以 基本 格式 表示 ， 那 么 
就 不 会 因为 中 间 计 算 过 程 中 的 上 符号 位 
滋 而 提前 终止 了 。 对 于 单 精度 扩 
展 格式 而 言 ， 它 的 一 个 推动 力 是 Sanaa 
EMS INEM ICE gpg, 11 
又 不 导致 计算 耗 时 过 长 。 因 为 通 
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常 是 精度 越 高 ， 计 算 耗 时 越 长 。 b) 双 精 度 格式 
表 9-3 总 结 了 4 种 格式 的 特点 。 图 921 IEEE 754 格式 
表 9-3 IEEE 754 格式 参数 
参数 单 精度 单 精度 扩展 双 精 度 双 精 度 扩展 

FR (位 数 ) 32 >43 64 >79 
阶 值 位 宽 (位 数 ) | 8 >11 T >15 
阶 值 偏 移 量 127 未 指定 1023 未 指定 
最 大 阶 值 127 >1023 1023 > 16383 
最 小 阶 值 -126 < -1022 -1022 < -16382 
数 的 范围 〈 底 为 10) jor; 10 未 指定 10 -308 ，10 +308 未 指定 
有 效 值 位 宽 (位 数 ) 23 >31 52 >63 
阶 值 的 数目 254 未 指定 2046 未 指定 
小 数 的 数目 ga 未 指定 ge? 未 指定 
值 的 数目 1.98 x23! 未 指定 1. 99 x268 未 指定 
注 : 不 包括 隐 含 位 。 


注意 ，IEEE 754 格式 的 所 有 位 模式 (bit pattem) 并 不 是 都 以 通常 方式 解释 ， 某 些 位 模式 用 
来 表示 特殊 值 。 表 9-4 指出 各 种 位 模式 对 应 的 值 。 全 0 (0) 和 全 1 ( 单 精度 是 235， 双 精度 是 
2047) 这 种 极端 阶 值 用 来 定义 特殊 值 。 数 的 分 类 如 下 所 示 。 
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表 9-4 ‘IEEE 754 浮 点 数 的 说 明 




































































单 精度 (32 fiz) 双 精 度 (64 位 ) 
符号 移 码 阶 值 | 小 数 值 符号 移 码 阶 值 小 数 值 
正 零 0 0 0 0 0 0 0 0 
nE 1 0 0 -0 1 0 0 -0 
正 无 穷 大 0 255 (41) |0 oo 0 2047( 全 1) 0 æ 
负 无 穷 大 1 255 (41) |0 - œ% 1 2047 (&1) |0 — 0 
FERRER 0 或 1 255( 全 1) | #0 NaN 0 或 1 |2047 (全 1) | 40 | NaN 
(quiet NaN) 
通知 式 非 数 0 或 1 255( 全 1) | 40 NaN 0 或 1 |2047 (41) | 40 | NaN 
(signaling NaN) 
Wa 0 0<e<255 |f pd 0 0 < e <2047 f 证 
oo me: 0<e<255 |f ty i BD) 
正 的 非 规 格 
£40 Je 25 (O i ge" M20: 

负 的 非 规 格 

0 £40 = 9° T JEW 2 


。 如 果 阶 值 范围 在 1~254 ( 单 精度 ) 和 1 ~ 2046 ( 双 精 度 ) ， 那 么 位 模式 表示 了 一 个 规格 化 
的 非 零 浮 点 数 。 阶 值 是 移 码 表示 的 ， 故 真正 阶 值 范围 是 - 126 ~ +127 ( 单 精 度 ) 和 
-1022 ~ +1023 ( 双 精 度 ) 。 一 个 规格 化 的 数 要 求 二 进 制 小 数 点 左边 有 一 个 1; 这 位 是 隐 
藏 的 ， 使 得 有 效 值 的 总 位 数 实际 为 24 位 或 53 位 〈 标 准 中 称 有 效 值 为 小 数 ，fraction ) 。 

。 0 阶 值 与 0 有 效 值 一 起 表示 正 零 或 负 零 ， 取 决 于 它 的 符号 位 。 正 如 我 们 曾 提 到 的 ， 有 精确 
的 0 值 表 示 是 有 益 的 。 

。 全 1 阶 值 与 0 有 效 值 一 起 表示 正 无 穷 大 或 负 无 穷 大 ， 取 决 于 它 的 符号 位 。 能 表示 无 穷 大 
也 是 有 用 的 。 把 上 滋 看 成 一 个 错误 条 件 而 停止 程序 执行 ， 还 是 把 它 看 成 是 一 个 om 值 带 入 
程序 并 继续 处 理 ， 这 样 的 决定 权 留 给 用 户 。 

。 0 阶 值 与 非 0 有 效 值 一 起 表示 一 个 非 规格 化 (denormalized) 数 。 这 种 情况 下 ， 二 进 制 小 
数 点 左边 的 隐藏 位 是 0， 并 且 真 实 阶 值 是 -126 或 -1022。 数 的 正 负 取决 于 它 的 符号 位 。 

。 全 1 阶 值 与 非 0 有 效 值 一 起 给 出 非 数 (NaN) 值 ， 它 意味 着 不 是 一 个 数 (Not a Number), 
非 数 (NaN) 用 来 表示 出 现 了 各 种 异常 情况 。 

9.5 节 将 讨论 非 规格 化 数 和 NaN 的 意义 。 


9.5 浮 点 算术 
表 9-5 总 结 了 浮 点 算术 的 基本 操作 。 对 于 加 、 减 法 ， 必 须 保证 两 个 操作 数 具有 相同 的 阶 。 这 
可 能 要 求 移 动 一 个 操作 数 的 小 数 点 以 达到 对 齐 。 乘 、 除 法 反而 更 简单 些 。 
浮 点 运算 可 能 会 产生 如 下 几 种 特殊 情况 : 
© Br Lim (exponent overflow): 一 个 正 阶 值 超出 了 最 大 允许 阶 值 。 某 些 系 统 将 其 设计 成 
十 0 或 一 oo 
© 阶 值 下 溢 (exponent underflow); 一 个 负 阶 值 小 于 最 小 允许 阶 值 (如 - 200 小 于 -127) 。 
这 意味 着 那个 数 太 小 无 法 表示 ， 一 般 可 报告 成 0。 
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© AXA Ti (significand underflow) ; 处 理 有 效 值 对 齐 时 ， 可 能 有 数字 被 移出 右 端 最 低位 
而 丢失 。 下 面 将 要 讨论 ， 此 时 需要 某 种 形式 的 舍 人 。 

。 有 效 值 上 溢 (significand overflow): 同 符号 的 两 个 有 效 值 相 加 可 能 导致 最 高 有 效 位 的 进 
位 。 这 可 通过 重新 对 齐 来 修补 ， 后 面 将 说 明 。 


RIS 浮 点 数 和 算术 操作 











浮 点 数 算术 操作 

X=X, xB*E X+Y=( Xs xB*E YE +Ys) x BYE 
nt) ae 

Y =Y, x BYE X -Y=( Xs xB*E-YE -Y,) vane fi ‘ 


XxY=( Xs xYs) xBietve 





举例 : X=0.3 x10? =30 
Y=0.2 x10 =200 
X+Y=(0.3 x102-3 +0.2) x103 =0. 23 x 10° =230 
X-Y=(0.3 x10?~* -0.2) x10? =( -0.17) x10? = -170 
Xx Y=(0.3 x0.2) x102+3 =0. 06 x 10° =6000 
X+Y=(0.3 +0.2) x 107-3 =1.5 x107! =0. 15 


9.5.1 浮 点 加 法 和 减法 


浮 点 算术 中 ， 加 、 减 法 要 比 乘 、 除 法 更 复杂 ， 因 为 它 需要 对 齐 。 加 、 减 法 有 4 个 基本 阶段 : 

(1) 检查 0。 

(2) 对 齐 有 效 值 。 

(3) 加 或 减 有 效 值 。 

(4) 规格 化 结果 。 ， 

图 9-22 是 一 个 典型 的 流程 图 。 下 面 逐 步 说 明 浮 点 加 、 减 法 所 需要 的 主要 操作 。 假 定格 式 类 
似 于 图 9-21 中 的 格式 。 为 了 加 或 减 操作 ， 两 个 操作 数 必须 传送 到 可 被 算术 逻辑 单元 (ALU) 使 
用 的 寄存 器 中 。 若 格式 包括 一 个 隐藏 有 效 位 ， 则 此 位 要 先 变 成 显 式 再 操作 。 

步骤 1: 检查 0。 因 为 加 法 和 减法 除了 符号 不 同 外 基本 上 是 相同 的 。 因 此 若是 一 个 减法 ， 过 
程 一 开始 就 改变 减 数 的 符号 。 接 着 ， 若 有 一 个 操作 数 是 0， 那 么 另 一 个 操作 数 就 是 结果 。 

步骤 2: 对 齐 有 效 值 。 下 一 步 是 操纵 数 使 两 个 阶 值 相等 。 

要 说 明 为 什么 需要 这 样 做 ， 可 考虑 十 进 制 加 法 : 

(123 x 10°) + (456 x10~7) 

很 明显 ， 不 能 仅 加 有 效 值 。 数 字 首 先 要 设置 成 对 等 位 置 ， 即 第 二 个 数 的 4 需 与 第 一 个 数 的 3 

对 齐 。 在 两 个 阶 值 相等 的 条 件 下 两 个 数 才 能 相 加 ， 这 是 数学 的 基本 要 求 。 于 是 有 : 
(123 x10°) + (456 x10 一 ) =(123 x 10°) + (4.56 x 10°) =127. 56 x 10° 

实现 有 效 值 对 齐 ， 或 右 移 较 小 的 数 〈 增 加 它 的 阶 值 ) 或 左 移 较 大 的 数 ( 减 少 它 的 阶 值 )。 无 
论 哪 种 操作 都 可 能 导致 数字 丢失 ， 一 般 来 说 ， 右 移 较 小 的 数 而 丢失 的 数字 ， 所 造成 的 影响 要 相对 
小 些 。 因 此 ， 对 齐 通过 重复 右 移 较 小 数 有 效 值 的 幅 值 部 分 1 位 ， 并 将 其 阶 值 加 1， 直 到 两 个 阶 值 
相等 来 实现 〈 注 意 ， 若 隐 含 的 底 是 16， 移 动 一 个 数字 相当 于 移动 4 位 二 进 制 值 ) 。 硅 此 过 程 导致 
有 效 值 变 为 0， 则 另 一 个 数 即 为 结果 。 于 是 ， 若 两 个 数 的 阶 值 差别 非常 大 ， 则 较 小 的 数 丢 失 。 

步骤 3: 加 法 。 将 两 个 有 效 值 相 加 ， 相 加 时 要 考虑 它们 的 符号 。 因 为 符号 可 能 不 同 ， 结 果 有 
可 能 是 0。 这 里 也 可 能 出 现 有 效 值 上 溢 1 个 数字 ， 若 是 这 样 ， 则 有 效 值 要 右 移 ， 阶 值 增 加 1。 阶 
值 加 1 又 可 能 发 生 阶 值 上 溢 ; 如 果 发 生 阶 值 上 溢 ， 此 时 应 终止 操作 并 报告 。 
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步骤 4: 规格 化 。 最 后 一 步 是 规格 化 结果 。 左 移 有 效 值 直到 最 高 有 效 数 字 (位 , 或 4 位 
对 底 为 16 而 言 ) 为 非 零 。 每 次 左 移 都 引起 阶 值 相 应 减 1， 这 种 情况 有 可 能 出 现 阶 值 下 溢 。 最 后 ， 
必须 对 结果 进行 舍 人 ， 然 后 报告 结果 。 我 们 将 伟人 的 讨论 推迟 到 乘除 法 讨论 之 后 再 进行 。 


加 法 





图 9-22 浮 点 加 法 和 减法 (ZX +Y) 
9.5.2 浮 点 乘法 和 除法 ` 


浮 点 乘 、 除 法 要 比 加 、 减 法 简单 ， 由 
如 下 讨论 可 看 出 。 

我 们 首先 考虑 乘法 ， 其 过 程 如 图 9-23 
所 示 。 无 论 哪个 操作 数 是 0， 乘 积 即 为 0。 
下 一 步 是 阶 值 相 加 。 若 阶 值 是 移 码 表示 的 
形式 ， 两 个 阶 值 的 和 将 会 包含 两 倍 的 偏 移 
量 ， 故 应 从 和 中 减 去 一 个 偏 移 量 。 阶 值 相 
加 可 能 会 出 现 阶 值 上 溢 或 下 滋 ， 此 时 应 结 
束 乘法 并 报告 。 

若 积 的 阶 值 在 一 个 恰当 的 范围 内 ， 则 
下 一 步 应 是 有 效 值 相 乘 ， 包 括 它们 的 符号 
一 起 考虑 。 有 效 值 相 乘 与 整数 乘法 的 完成 
方式 相同 。 此 例 中 我 们 使 用 的 是 “符号 - 
幅 值 ”表示 法 ， 不 过 对 于 2 的 补 码 表示 法 
而 言 ， 其 细节 也 是 类 似 的 。 积 的 长 度 将 是 
被 乘 数 和 乘 数 的 长 度 的 两 佑 ， 多 余 的 位 将 
在 舍 人 期 间 丢 失掉 。 

得 出 乘积 之 后 ， 下 一 步 则 是 结果 的 规 图 9.23 浮 点 乘法 (ZX xY) 
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格 化 和 舍 入 处 理 ， 同 加 、 减 法 所 做 的 一 样 。 注 意 ， 规 格 化 可 能 导致 阶 值 下 洲 。 

最 后 考虑 图 9-24 所 示 的 除法 流程 图 。 第 一 步 是 测试 0。 若 除数 是 0， 或 报告 出 错 ， 或 认为 商 
是 一 个 无 穷 大 ， 这 取决 于 具体 的 实现 。 若 被 除数 是 0， 则 结果 是 0。 下 一 步 是 被 除数 的 阶 值 减 除 
数 的 阶 值 。 这 个 过 程 把 偏 移 量 减 掉 了 ， 故 必须 在 阶 值 相 减 后 再 加 上 偏 移 量 。 然 后 检查 阶 值 是 否 出 
MT Ea BP tao 





图 9-24 ” 浮 点 除法 (ZX/Y) 
下 一 步 是 有 效 值 相 除 。 接 下 去 是 规格 化 和 舍 入 处 理 。 


9.5.3 精度 考虑 


1. 保护 位 

我 们 提 到 过 ， 在 浮 点 运算 之 前 ， 每 个 操作 数 的 阶 值 和 有 效 值 要 装 人 算术 逻辑 单元 的 寄存 器 
中 。 有 效 值 的 装 和 情况 是 ， 寄 存 器 的 长 度 几乎 总 是 大 于 有 效 值 位 长 与 一 个 隐藏 位 〈 若 使 用 ) 之 
和 。 寄 存 器 包含 的 这 些 附加 位 叫做 保护 位 (guard bits), ， 有 效 值 装 和 时， 这 些 位 以 0 填充 ， 用 于 
扩展 有 效 值 的 右 端 。 

使 用 保护 位 的 理由 说 明 于 图 9-25。 考 虑 IEEE 754 格式 的 数 ， 它 有 24 位 有 效 值 ， 包 括 了 二 进 
制 小 数 点 左边 的 一 个 隐藏 位 。x = 
1.00…00 x2' 和 y=1.11…11 x 2° 是 两 
个 值 很 靠近 的 数 。x -y 时 ， 较 小 的 数 y 
必须 右 移 一 位 以 对 齐 阶 值 。 这 示 于 图 
9-25a。 此 过 程 中 ,y 丢失 了 一 位 有 效 
数 ; 结果 是 2 ”。 同 样 的 过 程 重复 于 图 
9-25b, 但 此 时 附加 有 4 位 保护 位 。 现 
在 ,最 低 有 效 值 位 不 会 由 于 对 齐 而 丢 
KT, 并且 结果 是 2-”, 与 前 一 答案 相 b) 二 进 制 示例 ， 使 用 保护 位 d) 十 六 进 制 示例 ， 使 用 保护 位 
比 差 了 一 半 。 当 基数 是 16 时 ， 精 度 的 图 9-25 保护 位 的 使 用 





a) 二进制 示 例 ， 不 使 用 保护 位 ©) 十 六 进 制 示例 ， 不 使 用 保护 位 
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损失 可 能 更 大 。 正 如 图 9-25c 和 图 9-25d 所 示 ， 结 果 差 了 16 ffo 

2. QA 

影响 结果 精度 的 男 一 细节 是 舍 人 策略 (rounding policy) 。 对 有 效 值 操作 的 结果 通常 保存 在 更 
长 的 寄存 器 中 。 当 结果 转换 回 浮 点 格式 时 ， 必 须要 去 掉 多 余 的 位 。 

已 开发 出 几 种 技术 用 于 舍 人 人 处理。 实际 上 ，IEEE 754 标准 已 列 出 4 种 可 供 选 择 的 方法 。 

© MEEA (round to nearest): 结果 被 舍 人 成 最 近 的 可 表示 的 数 。 

© B+o BX (round toward +o); 结果 朝 正 无 穷 大 方向 向 上 舍 人 人 。 

e H -o SX (round toward - œ): 结果 朝 负 无 穷 大 方向 向 下 舍 人 。 

e 80 SX (round toward 0) : 结果 朝 0 舍 人 。 

让 我 们 依次 考察 这 些 策略 。 就 近 舍 入 是 标准 列 出 的 默认 舍 人 入 方式， 其 定义 如 下 : 最 靠近 无 限 
精度 结果 的 可 表示 值 将 被 提交 。 

例如 ， 如 果 超 出 可 保存 的 23 位 的 多 余 位 是 10010。 则 多 余 位 的 值 超过 了 最 低 可 表示 位 值 的 
一 半 。 这 种 情况 下 ， 正 确 的 答案 是 最 低 可 表示 位 加 1， 即 “和 人 ”到 下 一 个 可 表示 的 数 。 现 在 ， 考 
虑 多 余 位 是 01111。 这 种 情况 下 ， 多 余 位 的 值 小 于 最 低 可 表示 位 值 的 一 半 。 正 确 的 答案 是 简单 去 
HERM (WRH, truncate), HRA EA FARRAR. 

标准 也 规定 了 多 余 位 是 10000…… 这 种 特殊 情况 的 处 理 。 此 时 结果 位 于 两 个 可 表示 数值 的 严 
格 中 点 。 一 种 可 选 的 方法 是 截断 ， 因 为 该 操作 最 简单 。 但 这 个 简单 方法 的 缺点 是 ， 它 会 给 一 个 计 
算 序列 带 来 小 的 但 可 累积 的 偏差 效应 。 男 一 种 可 选 方法 是 ， 基 于 一 随机 数 来 决定 是 舍 还 是 入 ， 于 
是 平均 而 言 无 偏差 积累 效应 。 反 对 这 种 方法 的 意见 是 ， 它 不 能 产生 一 个 可 预期 的 确定 的 结果 。 
IEEE 采取 的 方法 是 强迫 结果 是 偶数 : 若 计算 结果 是 严格 位 于 两 个 可 表示 数 的 正中 间 ， 则 当 结 果 
的 最 低 可 表示 位 是 1 时 ， 结 果 向 上 入 ; 当 最 低 可 表示 位 是 0， 结 果 向 下 含 。 

接 下 来 两 个 可 选 方 法 是 朝 正 或 负 的 无 穷 大 方向 舍 入 。 它 们 在 实现 一 种 称 为 区 间 算 术 (inter- 
val arithmetic) 的 技术 中 是 有 用 的 。 通 过 为 每 个 结果 产生 两 个 值 ， 区 间 算 术 为 监视 和 控制 浮 点 运 
算 错 误 提 供 了 一 种 方法 。 这 两 个 值 对 应 于 含有 真正 结果 的 区 间 的 上 下 两 端 。 区 间 宽 度 ， 即 上 下 两 
端 之 差 ， 指 示 结 果 的 精确 度 。 若 区 间 端 点 不 可 表示 ， 则 对 它 要 进行 伟人 处 理 。 虽 然 区 间 宽 度 随 实 
现 的 不 同 而 变动 ， 但 已 有 许多 算法 能 产生 窜 的 区 间 。 如 果 上 、 下 边界 的 范围 足够 窄 ， 则 得 到 了 一 
个 足够 精确 的 结果 。 如 果 不 是 这 样 ， 那 么 至 少 我 们 能 知道 这 个 事实 ， 并 能 基于 此 进行 进一步 的 
分 析 。 

标准 描述 的 最 后 一 种 舍 人 技术 是 朝 0 舍 入 。 它 实际 上 是 简单 的 截断 ， 不 管 多 余 位 。 这 确实 是 
最 简单 的 技术 。 然 而 ， 被 截断 值 的 幅 值 总 是 小 于 或 等 于 更 精确 原 值 的 幅 值 ， 这 会 在 计算 中 产生 一 
致 的 向 下 偶 差 。 这 是 比 我 们 讨论 过 的 任何 偏差 都 更 为 严重 的 偏差 ， 因 为 这 种 偏差 对 任何 产生 非 
零 多 余 位 的 运算 都 有 影响 。 


9.5.4 二进制 浮 点 算术 的 IEEE 标准 


IEEE 754 远 超出 格式 的 简单 定义 ， 它 还 规定 了 特殊 情况 及 相应 处 理 方法 ， 以 使 浮 点 算术 能 
产生 一 致 的 、 可 预期 的 结果 ， 并 且 与 硬件 平台 无 关 。 其 中 一 个 方面 是 我 们 已 讨论 过 的 伟人 处 理 。 
本 小 节 介绍 其 他 三 个 论题 : 无 穷 大 、 非 数 (NaN) 和 非 规格 化 数 。 

1. 无 穷 大 

无 穷 大 在 实数 算术 中 作为 限界 来 对 待 ， 对 无 穷 大 可 给 出 如 下 解释 : 

-o < (任何 有 限 的 数 ) < +o 

除 后 面 讨论 的 几 种 特殊 情况 之 外 ， 任 何 涉 及 无 穷 大 的 算术 运算 都 将 产生 明确 的 结果 。 

例如 : 


5+(+%)=+% 5+(+0)=+0 
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5-(+0)= -œ (+o)+(+o)=+o 
5+(-%œ)= -œ (-%)+(-%)= -œ 
5-(-w)=+0 (-2)-(+a)= -œ 
Sx(+%)=+% (+0)-(-w)= +% 


2. 静默 式 和 通知 式 非 数 

非 数 (NaN) 是 以 浮 点 格式 编码 的 符号 实体 ， 它 有 两 种 类 型 : 静默 式 和 通知 式 。 通 知 式 
(signaling) NaN 在 每 次 它 作 为 一 个 操作 数 出 现时 ， 就 产生 一 个 无 效 操作 异常 的 通知 。 通 知 式 
NaN 可 为 未 初始 化 的 变量 ,以 及 不 属于 标准 的 算术 类 增强 ,提供 赋 值 。 静 默 式 (quiet) NaN 可 
以 通过 几乎 所 有 算术 操作 而 不 给 出 异常 通知 。 表 9-6 指出 了 那些 能 产生 静默 式 NaN 的 操作 。 

注意 ， 两 类 NaN 具有 同样 的 一 般 格式 ( 见 表 9-4): 全 1 的 阶 值 和 非 0 的 有 效 值 。 非 0 有 效 
值 的 实际 位 模式 取决 于 具体 实现 ; 有 效 值 能 用 来 区 分 通知 式 NaN 和 静默 式 NaN， 以 及 指定 具体 
的 异常 条 件 。 

表 9-6 产生 静默 式 NaN 的 操作 


产生 静默 式 NaN 的 操作 


对 通知 式 NaN 的 任何 操作 
无 穷 大 幅 值 相 减 : 


(+om)+(-o) 
(-o)+(+o) 
(+m)-(+om) 


(-2)-(-@) 









产生 静默 式 NaN 的 操作 


0 x om 








0/0 BK co / 00 








x REM 0 5% œ REM y 





加 或 减 


27124 


a) 没有 非 规格 化 数 的 32 位 格式 





~125 124 
0 b) 有 非 规格 化 数 的 32 位 格式 
图 9-26 IEEE 754 非 规格 化 数 的 效应 


3. 非 规格 化 数 

IEEE 754 包括 了 一 种 非 规格 化 数 (denormalized number) ， 用 于 处 理 阶 值 下 溢 情 况 。 当 结果 
的 阶 值 太 小 (大 幅 值 的 负 阶 值 ) 时 ， 通 过 右 移 进 行 非 规格 化 ; 每 次 右 移 阶 值 增 1， 直 到 阶 值 落 在 
可 表示 范围 之 内 。 

图 9-26 说 明了 加 入 非 规格 化 数 后 的 效果 。 可 表示 的 数 能 以 [2", 2] 的 区 间 分 组 ， 每 个 区 
间 内 ， 数 的 阶 值 部 分 保持 不 变 而 有 效 值 变动 ， 在 区 间 内 产生 一 致 间 隔 的 可 表示 数 。 当 向 0 靠近 
时 ， 每 一 后 面 区 间 是 前 一 区 间 宽 度 的 一 半 ， 但 可 表示 数 的 数目 是 相同 的 。 于 是 ， 随 着 向 0 WUT, 
可 表示 数 的 密度 增加 了 。 然 而 ， 若 只 使 用 规格 化 数 ， 则 在 最 小 规格 化 数 和 0 之 间 有 一 个 空隙 被 浪 
费 了 。 以 IEEE 的 32 位 格式 而 言 ， 每 个 区 间 有 2” 个 可 表示 的 数 ， 最 小 可 表示 的 正 数 是 2 “。 使 
用 非 规格 化 数 后 ，2”- 1 个 附加 的 数 以 一 致 的 密度 添加 到 0 与 2 “之 间 。 

非 规格 化 数 的 使 用 ， 被 称 为 逐 级 下 溢 (gradual underflow) [COON81]。 若 无 非 规格 化 数 ， 则 
最 小 可 表示 的 非 0 数 与 0 之 间 的 间隙 远 宽 于 最 小 可 表示 的 非 0 数 与 下 一 个 更 大 非 0 数 之 间 的 间 
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隙 。 逐 级 下 溢 填 充 了 这 个 间隙 ， 并 将 阶 值 下 溢 的 影响 降低 到 与 规格 化 数 间 舍 人 相当 的 级 别 上 。 


9.6 推荐 的 读物 和 Web 站 点 


[ERCE04] 和 [PARH00] 是 计算 机 算术 的 两 本 优秀 著作 ， 它 们 全 面 详 尽 地 介绍 了 本 章 所 有 主题 。 
[FLYN01] 聚焦 于 实际 设计 和 实现 问题 的 有 益 讨 论 。 对 于 一 个 想 认 真 学习 计 算 机 算术 的 学 生来 说 ， 一 份 必 
备 的 参考 书 是 两 卷 的 [SWAR90] ， 其 卷 I 是 1980 年 出 版 的 ， 提 供 了 计算 机 算术 基础 的 很 多 重要 论文 (其 中 
一 些 是 其 他 地 方 很 难得 到 的 ); 卷 卫 包含 了 更 近 的 论文 ， 覆盖 了 计算 机 算术 的 理论 、 设 计 和 实现 等 诸多 
方面 。 

对 于 浮 点 算术 ，[ GOLD91] 正如 其 书 名 “每 个 计算 机 科学 家 所 应 该 知道 的 浮 点 算术 知识 (What Every 
Computer Scientist Should Know About Floating-Point Arithmetic) ”所 喻 ， 是 任何 计算 机 科学 工作 者 都 应 具备 的 
浮 点 算术 知识 。 另 外 ， [ KNUT98] 含有 此 主题 的 优秀 论述 ， 亦 介绍 了 计算 机 整数 算术 。 [OVER01 E- 
VENO0a, OBER97a, OBER97b, SODE96] 等 对 于 更 深入 探讨 计算 机 算术 是 有 价值 的 。 [KUCK77] 给 出 了 
浮 点 算术 舍 信 方法 的 良好 讨论 。[ EVENOOb] 考察 了 IEEE 754 的 舍 人 处 理 。 

[SCHW99] 介绍 了 将 基数 -16 Al IEEE 754 浮 点 算术 集成 到 同一 浮 点 单元 的 IBM S/390 处 理 器 。 
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推荐 的 Web 站 点 


。 IEEE 754: IEEE 754 文档 ， 包 括 相 关 论 文 和 出 版 物 以 及 对 有 关 计 算 机 算术 的 一 些 有 用 链接 。 


97 关键 词 、 思 考题 和 习题 
关键 词 


Arithmetic and Logic Unit (ALU): 算术 逻辑 单元 


arithmetic shift; 算术 移 位 

base: 基 值 〈 或 称 为 底 ) 

biased representation; 移 码 表示 法 
denormalized number， 非 规格 化 数 
dividend: 被 除数 

divisor; 除数 

exponent: 指数 〈 阶 值 ) 

exponent overflow: 阶 值 上 游 
exponent underflow: 阶 值 下海 
fixed-point representation: 定点 表示 法 
floating-point representation ; 浮 点 表示 法 
guard bits; 保护 位 

mantissa: 尾数 (有效 值 ) 

minuend : 被 减 数 

multiplicand : 被 乘 数 

multiplier: 乘 数 

negative overflow: 负 上 游 

negative underflow: ffi F% 


思考 题 
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normalized number: 规格 化 数 

ones complement representation: 1 的 补 码 ( 反 码 ) 表 
ANE 

overflow: 上 洲 (或 溢出 ) 

partial product: 部 分 积 

positive overflow: 1E E% 

positive underflow; iE FX 

product: #4 

quotient: 商 

radix point; 小 数 点 

remainder: 余数 

rounding: A 

sign bit: 符号 位 

significand: 有 效 值 

significand overflow: Æ UÈ E ği 

significand underflow: 有 效 值 下 游 

sign-magnitude representation: 符号 - 幅 值 表示 法 

subtrahend: 减 数 

twos complement representation: 2 的 补 码 表示 法 


9.1 简要 解释 如 下 表示 法 : 符号 - 幅 值 ，2 的 补 码 ， 移 码 。 

9.2 下 面 三 种 表示 法 中 如 何 确定 一 个 数 是 否 为 负数 : 符号 - 幅 值 ，2 的 补 码 ， 移 码 ? 

9.3 对 于 2 的 补 码 数 ， 符 号 扩展 规则 是 什么 ? 

9.4 在 2 的 补 码 表示 法 中 ， 如 何 求 得 一 个 整数 的 负数 ? 

9.5 一 般 而 言 ， 什 么 情况 对 一 个 位 整数 求 (2 的) 补 时 能 产生 同一 整数 ? 

9.6 一 个 数 的 2 的 补 码 表示 与 对 一 个 数 求 (2 的 ) 补 有 何不 同 ? 

9.7 如果 将 2 的 补 码 数 看 作 是 无 符号 整数 来 进行 加 法 运算 ， 则 以 2 的 补 码 数 来 解释 此 “和 ” 数 ， 其 结果 是 
正确 的 。 但 这 不 能 用 于 乘法 运算 ， 为 何 ? 

9.8 浮 点 表示 法 中 ， 数 的 4 个 基本 元 素 是 什么 ? 

9.9 浮 点 数 的 阶 值 部 分 采用 移 码 表示 法 有 什么 好 处 ? 

9.10 EEX, BME be AAR bie, =A RETA? 

9.11 浮 点 加 减法 的 基本 要 素 是 什么 ? 

9.12 给 出 使 用 保护 位 的 理由 。 

9.13 列 出 浮 点 数 运算 结果 的 4 种 舍 人 方法 。 


习题 
9.1 以 16 位 长 的 二 进 制 符号 - 幅 值 法 和 2 的 补 码 表 示 法 分 别 表示 如 下 十 进 制 数 : +512; -29。 
9.2 给 出 如 下 2 的 补 码 数 的 十 进 制 值 : 1101011; 0101101, 
9.3 ”有 时 会 碰 到 的 另 一 种 二 进 制 整数 表示 法 是 1 的 补 码 表示 法 。 正 整数 以 与 “符号 - 幅 值 法 ”相同 的 方法 
来 表示 ， 负 整数 以 对 应 正 数 的 各 位 取 反 来 表示 。 
(a) 以 类 似 于 等 式 (9.1) 和 (9.2) 的 步骤 ， 使 用 位 的 加 权 和 给 出 1 的 补 码 表 示 法 的 定义 。 
(b) 1 的 补 码 表 示 法 所 能 表示 的 数 的 范围 是 什么 ? 
(c) 车 以 1 的 补 码 完 成 加 法 运算 ,请 定义 算法 。 
注意 : 虽然 1 的 补 码 算术 在 20 世纪 60 年 代 就 从 计算 机 硬件 中 消失 了 ,但 还 在 (互联 网 协议 ，Inter- 
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9.4 
9.5 


9.6 


OT 


9.8 
9.9 


9. 23 





net Protocol) 和 TCP (传输 控制 协议 Transmission Control Protocol) 中 用 于 校 验 和 的 计算 。 

将 符号 - 幅 值 和 1 的 补 码 两 种 表示 法 的 特征 加 入 到 表 9-1 中 。 

考虑 对 一 个 二 进 制 字 的 如 下 操作 : 从 最 低 有 效 位 开始 ， 逐 个 复制 值 为 0 的 位 ， 直 到 遇 到 第 一 个 值 为 1 

的 位 ， 并 也 将 它 复制 过 来 ; 然后 对 此 位 之 后 的 各 位 取 反 再 复制 。 生 成 的 结果 是 什么 ? | 

在 9.3 节 我 们 曾 将 2 的 补 操作 定义 成 : 为 求 了 的 2 的 补 , 将 XX 的 各 位 取 反 然后 加 1。 

(a) 请 说 明 如 下 定义 是 等 价 的 : 对 一 个 nn 位 二 进 制 整数 X,， XK 2 的 补 可 通过 将 XX 看 作 是 一 个 无 符号 
整数 然后 计算 (2" -X) 来 获得 。 l 

(b) 请 通过 用 顺 时 针 的 移动 来 验证 减法 ， 展 示 图 9-5 也 能 对 (a) 中 所 提出 定义 提供 图 形 化 的 支持 。 

对 于 位 数字 的 > 进 制 数 W,“zr 的 补 ” 定 义 为 : 4NAOM, NAT AAA’ -N, 4 N=0 Hf, Nr 

的 补 为 0。 根据 此 定义 求 十 进 制 数 13 250 的 10 的 补 。 

使 用 10 的 补 码 算术 计算 72 530 -13 250。 假定 其 规则 类 似 于 2 的 补 码 算术 规则 。 

考虑 如 下 的 两 个 n 位 2 的 补 码 数 相 加 : 


Zr -12Zn-2 ”20 = Nn-1Xn-2"" "Xo 十 yn-1yn-2 Yo 
假定 上 式 按 位 相 加 时 使 用 了 一 个 位 间 进 位 C;， 它 是 由 x;、y; 和 C;_, 相 加 产生 的 。 令 wv 是 指示 溢出 
(v=1) 的 二 进 制 变量 。 现 只 考虑 首位 相 加 的 各 种 情况 ， 请 填写 下 表 中 的 输出 值 。 




















将 下 面 的 数 用 8 位 2 的 补 码 表示 ， 再 进行 计算 : 


(a) 6+13 (b) -6 +13 (c) 6-13 (d) -6-13 

使 用 2 的 补 码 算法 ， 求 如 下 的 差 : 

(a) 111000 (b) 11001100 (e) 111100001111 (d) 11000011 
- 110011 - 101110 -110011110011 -11101000 


下 面 这 个 上 洲 的 定义 对 于 2 的 补 码 运算 是 否 有 效 ? 

若 向 最 左 位 的 进位 与 最 左 位 向 上 的 进位 ， 其 异 或 值 是 1 时 ， 则 有 上 溢 ; 否则 便 没有 上 溢 。 

比较 图 9-9 和 图 9-12 ， 为 什么 后 者 不 使 用 C 位 ? 

已 知 以 2 的 补 码 表示 有 x* =0101 和 y=1010 ( 即 x=5, y= -6)， 请 以 布 斯 算法 计算 积 p =x xy。 

使 用 布 斯 算法 计算 23( 被 乘 数 ) x29( 乘 数 ) ， 这 里 每 个 数 用 6 位 表示 。 

试 证 明 ， 基 值 为 B 的 两 个 位 数字 的 数 相 乘 ， 其 积 不 会 多 于 2n 位 数字 。 

通过 说 明 图 9-15 的 除法 计算 各 步 ， 验 证 图 9-16 无 符号 数 除法 算法 的 有 效 性 。 请 使 用 类 似 于 图 9-17 的 

说 明 格 式 。 

在 9. 3 节 中 描述 的 除法 算法 称 为 恢复 余数 算法 ， 因 为 一 个 不 成 功 的 减 之 后 必须 恢复 A 寄存 器 中 的 值 。 

另 一 较为 复杂 的 方法 ， 称 为 不 恢复 余数 除法 ， 它 避免 了 不 必要 的 减 和 加 。 请 为 后 一 种 方法 设计 算法 。 

在 计算 机 整数 运算 时 ， 两 个 整数 J 和 天 的 商 JAK 小 于 或 等 于 平常 (手工 运算 ) 的 商 ， 是 真 还 是 假 ? 

以 2 的 补 码 表示 法 完成 - 145 除 以 13, 使 用 12 位 字 长 ， 应 用 9.3 节 描 述 的 算法 。 

(a) 考虑 一 个 十 进 制 数 的 定点 表示 法 ， 其 隐 含 的 小 数 点 能 在 任何 位 置 (如 ， 在 最 低 有 效 数 字 的 右边 ， 
在 最 高 有 效 数 字 的 右边 等 ) 。 若 近似 表示 普 朗 克 (Plank) 常数 (6.63 x10-”) ALB ee 
( Avogadro) 常数 (6. 02 x10”) ， 并 要 求 两 数 的 隐 含 小 数 点 在 同一 位 置 。 请 问 这 需要 多 少 位 十 进 
制 数 ? 

(b) 考虑 一 个 十 进 制 数 的 浮 点 表示 法 ， 其 阶 值 以 移 码 表示 ， 偏 移 量 是 80。 假 定 表 示 已 是 规格 化 了 。 
请 问 以 这 种 浮 点 表示 法 表示 以 上 两 常数 需要 多 少 位 十 进 制 数 ? 

BREME e 限定 在 0<e<x 范围 内 ， 偏 移 量 是 g， 底 是 4， 有 效 值 长 度 是 p 个 数字 。 

(a) 能 表示 的 最 大 和 最 小 正 值 是 什么 ? 

(b) 作为 规格 化 的 浮 点 数 ， 能 表示 的 最 大 和 最 小 正 值 是 什么 ? 

以 IEEE 32 位 浮 点 格式 表示 如 下 的 数 : 


9:31 


9. 32 


9. 33 
9. 34 


9. 37 


9. 38 


9. 40 
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(a) -5 (b) -6 (e) -15 (d) 384 (e) 1/16 (f) -1/32 

下 列 各 数 使 用 了 IEEE 32 位 浮 点 格式 ， 对 应 的 十 进 制 值 是 什么 ? 

(a) 1 10000011 110 0000 0000 0000 0000 0000 

(b) 0 0111110 101 0000 0000 0000 0000 0000 

(©) 0 1000 0000 000 0000 0000 0000 0000 0000 

考虑 一 个 简化 的 7 位 IEEE 浮 点 格式 ，3 位 阶 值 ，3 位 有 效 值 。 请 列 出 全 部 的 127 个 值 。 

IBM 32 位 浮 点 格式 为 : 7 位 阶 值 ， 隐 含 的 底 是 16 ， 阶 值 的 偏 移 量 是 64 〈 十 六 进 制 的 40) ， 规 格 化 的 
浮 点 数 要 求 最 左 的 十 六 进 制 数字 不 为 零 ， 小 数 点 隐 含 位 于 最 左 位 的 左边 。 请 以 该 格式 表示 如 下 的 数 : 


a. 1.0 c. 1/64 e. - 15.0 g 7.2 x10” 
b. 0.5 d. 0.0 £5.4x10-” h. 65535 
SBCA000 是 以 十 六 进 制 表述 的 IBM 格式 的 浮 点 数 ， 它 的 十 进 制 值 是 多 少 ? 
下 列 情况 偏 移 量 应 为 多 少 ? 
(a) 6 位 字段 中 底 为 2 的 阶 值 。 
(b) 7 位 字段 中 底 为 8 的 阶 值 。 
为 图 9-21b 的 浮 点 格式 画 出 类 似 于 图 9-19b 那样 的 数 轴 表示 。 
考虑 一 种 浮 点 格式 ， 它 有 8 位 移 码 阶 值 和 23 位 有 效 值 。 请 以 此 格式 表示 下 列 数 : 
(a) -720 (b) 0.645 
正文 中 提 到 ，32 位 格式 最 多 能 表示 2” 个 不 同 的 数 。 用 IEEE 32 位 浮 点 格式 最 多 能 表示 多 少 不 同 的 数 ， 
为 什么 ? 














任何 浮 点 表示 法 在 计算 机 中 只 能 精确 地 表示 某 些 实数 ， 其 他 所 有 数 必 定 是 近似 的 。 若 4' 是 存储 的 近 
WHA, A 是 原 实际 值 ， 则 相对 误差 "可 表示 成 : 
A-A' 

r= A 
请 以 如 下 浮 点 格式 表示 十 进 制 数 +0.4， 并 计算 它 的 相对 误差 。 
e 底 为 2。 
。 BME: 移 码 ,4 位。 
e 有 效 值 : 7 位 。 


设 4=1.427， 若 4 被 截断 到 1. 42， 求 其 相对 误差 ; AA 被 人 到 1. 43 ， 求 其 相对 误差 。 

当 人 们 说 到 浮 点 运算 的 不 精确 性 时 ， 常 把 误差 归结 于 两 个 相近 数 相 减 时 出 现 的 抵消 (cancellation ) 
上 。 BRE xF y 近似 相等 时 ， 其 * -y 的 差 可 没有 误差 地 精确 得 到 。 那 么 人 们 实际 指 的 是 什么 呢 ? 
SUE A Al B 在 计算 机 中 是 以 其 近似 值 4' 和 B' 来 存储 的 ， 忽 略 任 何 可 能 有 的 截断 或 舍 入 误差 ,说明 积 
的 相对 误差 大 约 是 因子 相对 误差 之 和 。 

在 计算 机 计算 中 ， 当 两 个 几乎 相等 的 数 相 减 时 会 出 现 最 严重 的 误差 。 考虑 4 = 0.22288 fl B= 
0.22211, 计算机 将 所 有 值 都 截断 到 4 位 十 进 制 数字 。 于 是 ，4' =0. 2228 Fil B’ =0. 2221。 

(a) 4' 和 B' 的 相对 误差 各 是 多 少 ? 

(b) XF C'=A'-B', 其 相对 误差 又 是 多 少 ? 

为 获得 对 非 规格 化 和 逐 级 下 溢 效 应 的 某 些 感性 认识 ， 请 考虑 一 个 十 进 制 系统 。 它 的 有 效 数 是 6 位 十 进 
制 数 ， 它 的 最 小 规格 化 数 是 10-”。 一 个 规格 化 的 数 要 求 在 十 进 制 小 数 点 左边 有 一 位 非 0 的 十 进 制 数 。 
完成 如 下 计算 并 将 结果 非 规 格 化 。 对 结果 进行 解释 。 

(a) (2.50000 x10-”) x (3.50000 x10~*) 

(b) (2.50000 x107) x (3.50000 x10~%) 

(e) (5.67834 x10-”) - (5.67812 x10~*”) 

展示 如 何 完成 以 下 浮 点 加 法 (有效 值 截断 到 4 位 十 进 制 数 ) 。 以 规格 化 的 形式 表示 结果 。 


(a) 5.566 x10?+7.777 x 10° (b) 3.344 x10' +8.877 x10? 
展示 如 何 完成 以 下 浮 点 减法 (有效 值 截断 到 4 位 十 进 制 数 ) 。 以 规格 化 的 形式 表示 结果 。 
(a) 7.744 x10™ -6. 666 x10~° (b) 8.844 x10- -2. 233 x 107! 


展示 如 何 完成 以 下 浮 点 计算 (有 效 值 截断 到 4 位 十 进 制 数 ) 。 以 规格 化 的 形式 表示 结果 。 
(a) (2.255x10') x (1.234 x10°) (b) (8.833 x10?) + (5.555 x10*) 
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本 章 要 点 


© 计算 机 指令 最 重要 的 元 素 是 操作 码 (opcode) ， 它 指明 将 完成 的 操作 、 源 和 目的 操作 数 的 
引用 方式 ， 并 通常 隐 式 指明 下 一 条 指令 的 来 源 。 

操作 码 指定 的 操作 ， 一 般 可 有 如 下 类 型 : 算术 和 逻辑 运算 ， 在 两 个 寄存 器 、 寄 存 器 和 存 
储 器 或 存储 器 两 个 位 置 之 间 传送 数据 ， 输 入 /输出 (LO) ， 控 制 。 

操作 数 引用 方式 指定 如 何 寻找 被 操作 数据 的 寄存 器 或 存储 器 的 位 置 。 数 据 类 型 可 以 是 地 
址 、 数 值 、 字 符 或 逻辑 数据 。 

各 类 处 理 器 中 的 一 个 普遍 的 体系 结构 特征 是 栈 (stack) 的 使 用 ， 栈 对 程序 员 是 可 见 的 或 
是 不 可 见 的 。 栈 用 于 管理 过 程 的 调用 和 返回 ， 也 可 用 来 提供 另 一 种 寻 址 存储 器 的 方式 。 
栈 的 基本 操作 是 PUSH (A4) 和 了 POP (出 栈 ) ， 以 及 在 栈 顶 部 一 或 两 个 位 置 上 完成 的 操 
作 。 一 般 来 说 ， 栈 都 实现 为 从 高 地 址 向 低地 址 增长 。 

字 节 可 寻 址 的 处 理 器 可 分 为 大 端 (big endian) 、 小 端 (little endian) 、 双 端 (bi-endian) 
这 几 类 。 如 果 多 字 节 的 数值 是 以 最 高 有 效 字 节 存 于 最 低地 址 值 的 字 节 来 顺序 存储 ， 则 称 
为 大 端 ; 如 果 它 们 是 以 最 低 有 效 字 节 存 于 最 低地 址 值 的 字 节 来 顺序 存储 ， 则 称 为 小 端 。 
既 支 持 大 端 又 支持 小 端的 处 理 器 是 双 端 处 理 器 。 

本 书 讨论 的 大 部 分 内 容 对 于 计算 机 用 户 或 程序 员 来 说 ， 实 际 上 是 看 不 到 的 。 像 使 用 Pascal 或 
Ada 那样 ， 高 级 语言 的 编程 人 员 看 到 的 只 是 机 器 低层 结构 的 很 少 一 部 分 。 

对 一 台 计 算 机 而 言 ， 把 计算 机 设计 人 员 和 计算 机 编程 人 员 衔接 而 又 区 分 开 的 分 界 是 机 器 指 
令 集 。 以 设计 者 观点 看 ， 机 器 指令 集 提 出 了 对 中 央 处 理 器 〈CPU) 的 功能 性 需求 ; 实现 CPU 的 
任务 大 部 分 都 涉及 机 器 指令 集 的 实现 。 从 用 户 观 点 来 看 ， 选 取 以 机 器 语言 (实际 上 以 汇编 语言 ; 
见 附录 B) 编程 的 用 户 必定 要 通晓 机 器 所 直接 支持 的 寄存 器 和 存储 器 结构 、 数 据 类 型 ， 以 及 算术 
逻辑 单元 (ALU) 的 功能 。 

计算 机 机 器 语言 的 描述 将 大 大 有 助 于 了 解 计 算 机 的 CPU。 因此， 本 章 和 下 一 章 集中 讨论 机 器 


指令 。 


10. 1 机 器 指令 特征 
CPU 的 操作 由 它 所 执行 的 指令 确定 。 这 些 指令 称 为 机 器 指令 (machine instruction) 或 计算 机 
指令 。CPU 能 执行 的 各 种 不 同 指令 的 集合 称 为 CPU 的 指令 集 (instruction set) 。 


10.1.1 机 器 指令 要 素 
每 条 机 器 指令 必定 包含 处 理 器 执行 该 指令 所 需 的 信息 。 图 10-1 是 图 3-6 的 复制 ， 它 表示 了 指 
令 执 行 步骤， 也 隐 含 地 定义 了 机 器 指令 要 素 。 这 些 要 素 如 下 所 示 。 
© 操作 码 (operation code): 指定 将 要 完成 的 操作 (如 ADD, 1/0 等 ) 。 这 些 二 进 制 代码 党 
被 称 为 操作 码 (opcode) 。 
© 源 操 作 数 引用 (source operand reference): 操作 会 涉及 一 个 或 多 个 源 操作 数 ， 这 是 操作 所 
需 的 输入 。 
e 结果 操作 数 引 用 (result operand reference): 操作 可 能 产生 一 个 结果 。 
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多 个 操作 数 





指令 完成 ， 取 下 一 条 指令 


图 10-1 指令 周期 状态 图 


e 下 一 指令 引用 (next instruction reference): 它 告 诉 处 理 器 这 条 指令 执行 完成 后 到 哪儿 去 取 
下 一 条 指令 。 

待 取 的 下 一 条 指令 地 址 可 能 是 一 个 实地 址 (real address) ， 也 可 能 是 一 个 虚 地 址 (virtual 
address) ， 这 取决 于 具体 的 计算 机 体系 结构 。 通 常 来 说 ， 这 个 问题 跟 指令 集 无 关 。 大 多 数 情 况 下 ， 
待 取 的 下 一 条 指令 就 位 于 当前 指令 之 后 ， 此 时 指令 中 没有 显 式 引 用 。 当 需要 显 式 引 用 时 ， 则 指令 
中 必须 提供 主 存 或 虚拟 存储 器 的 地 址 。 地 址 提供 的 形式 在 第 11 章 讨论 。 

源 和 结果 操作 数 可 能 位 于 如 下 4 个 范围 内 : 

。 主 存 或 虚 存 : 与 下 一 条 指令 的 引用 一 样 ， 必 须 提 供 主 存 或 虚 存 的 地 址 。 

。 处 理 器 寄存 器 : 除 极 少数 例外 ， 一 个 处 理 器 总 有 一 个 或 多 个 能 被 机 器 指令 所 访问 的 寄存 

器 。 若 只 有 一 个 寄存 器 ， 对 它 的 引用 可 以 是 隐 式 的 ; 若 不 止 一 个 寄存 器 ， 则 每 个 寄存 器 
要 指定 一 个 唯一 的 名 字 或 编号 ， 指 令 提供 所 需 寄 存 器 的 寄存 器 号 。 

。 立即 数 : 操作 数 的 值 直接 保存 在 当前 执行 指令 的 某 个 字段 中 。 

MO 设备 : 需要 1/0 操作 的 指令 必须 指定 VO 模块 或 设备 。 若 使 用 存储 器 映射 《memory- 
mapped) VO FR, 那么 形式 上 将 是 男 一 个 主 存 或 虚 存 地 址 。 


10. 1.2 指令 表示 


在 计算 机 内 部 ， 指 令 由 一 个 位 串 来 表示 。 对 应 于 指令 的 各 要 素 ， 这 个 位 串 划分 成 几 个 字段 。 
图 10-2 显示 了 一 个 简单 的 指令 格式 (instruction format) 例子 。 另 一 个 例子 是 示 于 图 2-2 的 IAS 指 
令 格式 。 大 多 数 指令 集 使 用 不 止 一 种 指令 格式 。 
指令 执行 期 间 ， 一 条 指令 被 读 人 到 处 理 器 的 指令 
寄存 器 (IR) 中 ， 处 理 器 必须 能 从 各 个 指令 字段 “ e: f 
中 提取 数据 来 完成 所 需 操 作 。 图 10-2 一 种 简单 的 指令 格式 

无 论 是 编程 人 员 还 是 相关 图 书 的 读者 ， 都 难 与 机 器 指令 的 二 进 制 表 示 法 直接 打交道 。 于 是 ; 
普遍 使 用 的 是 机 器 指令 符号 表示 法 (symbolic representation)。 表 2-1 中 的 IAS 指令 就 是 这 样 一 个 
例子 。 

操作 码 被 缩写 成 助 记 符 ( mnemonic) 来 表示 。 一 般 的 例子 如 下 所 示 : 

ADD 加 

SUB 减 
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DIV 除 
LOAD ”由 存储 器 装 入 
STOR ”保存 到 存储 器 


操作 数 也 可 用 符号 表示 。 例 如 ， 指 令 : 
ADD R, Y 
会 意味 着 ， 它 将 存储 器 了 位置 中 的 数据 值 加 到 寄存 器 R 上 。 在 这 个 例子 中 ，Y 是 存储 器 某 位 置 
的 地 址 ，R 指 的 是 一 个 具体 寄存 器 。 注 意 ， 操 作 是 对 位 置 的 内 容 来 完成 的 ， 而 不 是 对 它 的 地 址 。 
于 是 ， 以 符号 形式 写 一 个 机 器 语言 程序 是 可 能 的 。 每 个 符号 化 的 操作 码 都 有 一 个 固定 的 二 
进 制 表 示 ， 程 序 员 指明 每 个 符号 化 操作 数 的 位 置 。 例 如 ， 程 序 员 可 在 程序 开始 处 写 出 下 列 定义 : 
X =513 
Y =514 
等 等 。 一 个 简单 的 程序 能 专门 用 来 接收 这 些 符号 输入 ， 把 操作 码 和 操作 数 引 用 转换 成 对 应 的 二 
进 制 形式 ， 并 构成 二 进 制 的 机 器 指令 。 
机 器 语言 程序 员 已 稀少 到 几乎 没有 的 程度 。 今 天 大 多 数 程序 是 以 高 级 语言 编写 的 ， 或 至 少 
也 是 以 汇编 语言 (附录 B 将 讨论 ) 来 编写 的 。 然 而 ， 符 号 机 器 语言 在 描述 机 器 指令 方面 仍 是 有 
用 的 工具 ， 因 此 我 们 还 将 使 用 它 来 学 习 有 关机 器 指令 的 知识 。 


10.1.3 ”指令 类 型 


考虑 像 能 表示 成 BASIC 或 FORTRAN 这 样 的 高 级 语言 指令 。 例 如 : 
X=X+Y 

这 条 语句 指挥 计算 机 将 存 于 YY 的 值 加 到 存 于 X 的 值 并 将 结果 放 入 X 中 。 用 机 器 指令 如 何 完成 它 ? 
让 我 们 假定 X 和 YY 变量 相应 于 位 置 513 和 514。 若 我 们 假定 有 一 简单 指令 集 ， 这 个 操作 能 以 如 下 
三 条 指令 完成 : 

(1) 将 存储 器 位 置 513 的 内 容 装 入 一 个 寄存 器 ; 

(2) 把 存储 器 位 置 514 的 内 容 与 上 述 寄 存 器 的 内 容 相 加 并 保存 到 该 寄存 器 中 ; 

(3) 将 此 寄存 器 内 容 存 人 存储 器 的 513 位 置 中 。 

正如 所 见 ， 一 条 单一 的 BASIC 指令 可 能 需要 三 条 机 器 指令 。 这 是 高 级 语言 和 机 器 语言 之 间 
的 典型 关系 。 高 级 语言 使 用 变量 ， 以 简明 的 代数 形式 来 表达 操作 。 而 机 器 语言 是 以 涉及 数据 移 人 
移出 寄存 器 的 基本 形式 来 表达 操作 。 

按照 这 个 简单 例子 给 我 们 的 启示 ， 让 我 们 考虑 一 个 具体 的 计算 机 中 必须 包括 的 指令 类 型 。 
计算 机 应 有 能 允许 用 户 表 达 任 何 数据 处 理 任务 的 一 组 指令 。 另 一 方面 是 考虑 高 级 语言 的 编程 能 
力 。 任 何以 高 级 语言 编写 的 程序 ， 都 必须 转换 成 机 器 语言 才能 执行 。 于 是 ， 机 器 指令 的 集合 必须 
充分 ， 足 以 表示 任何 高 级 语言 的 指令 形式 。 基 于 这 些 考虑 ， 可 将 指令 分 类 成 : 

© 数据 处 理 : 算术 和 逻辑 指令 ; 

© 数据 存储 : 存储 器 指令 ; 

e 数据 传送 : OBS; 

。 控制 : 测试 和 分 支 (branch) 指令 。 

算术 指令 提供 了 处 理 数 值 型 数据 的 计算 能 力 。 远 辑 (布尔 ) 指令 是 对 字 中 的 位 进行 操作 ， 
这 些 位 不 再 看 成 是 数值 位 ， 因 此 提供 了 处 理 任何 用 户 想 使 用 的 其 他 数据 类 型 的 能 力 。 这 些 操作 
主要 是 对 处 理 器 寄存 器 中 数据 进行 的 。 因 此 ， 必 须 有 存储 器 指令 ， 以 便 在 存储 器 和 寄存 器 之 间 传 
送 数据 。 需 要 有 LO 指令 将 程序 和 数据 装载 到 存储 器 ， 并 将 计算 结果 返 给 用 户 。 测 试 指 令 用 于 测 
试 数据 字 的 值 或 计算 的 状况 。 分 支 指令 则 用 于 依据 判定 条 件 是 否 成 立 ， 转 移 到 另 一 组 指令 上 去 。 
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本 章 稍 后 将 更 详细 地 考察 各 类 指令 。 


10.1.4 地 址 数目 


描述 处 理 器 结构 的 一 种 传统 方式 是 依据 每 条 指令 包含 的 地 址 数 。 随 着 日 益 增长 的 处 理 器 设计 的 
复杂 性 ， 这 种 量度 已 变 得 没什么 太 大 意义 。 然 而 ， 对 于 规划 和 分 析 来 说 ， 无 论 如 何 它 还 是 有 用 的 。 

一 条 指令 需要 的 最 大 地 址 数 是 多 少 ?很 显然 ， 算 术 和 罗 辑 指令 要 求 的 操作 数 最 多 。 实 际 上 ， 
所 有 算术 和 逻辑 运算 或 是 一 元 的 〈 一 个 源 操作 数 ) 或 是 二 元 的 〈 两 个 源 操 作 数 ) 。 于 是 ， 我 们 将 
最 多 需要 两 个 地 址 来 访问 源 操作 数 。 运 算 的 结果 必须 被 存储 ， 这 暗示 需要 第 三 个 地 址 ， 用 以 定义 
目的 操作 数 (destination operand) 。 最 后 ， 完 成 一 条 指令 后 必须 取得 下 一 条 指令 ， 这 又 需要 指令 
地 址 。 

上 述 推理 过 程 暗 示 ， 指 令 貌 似 需 要 有 4 个 地 址 引用 : 两 个 源 操作 数 ， 一 个 目的 操作 数 ， 以 及 
下 一 指令 地 址 。 实 际 上 ， 大 多 数 系统 中 ， 指 令 使 用 一 个 、 两 个 或 三 个 操作 数 地址 ， 下 一 指令 地 址 
为 隐 含 的 〈 由 程序 计数 器 得 到 ) 。 很 多 系统 包含 一 些 特殊 指令 ， 它 们 有 更 多 的 操作 数 。 例 如 ， 第 
11 章 所 描述 的 ARM 处 理 器 ， 其 装载 (load) 和 保存 (store) 指令 组 可 以 在 单个 指令 中 使 用 多 达 
17 个 寄存 器 操作 数 。 

图 10-3 比较 了 能 用 来 完成 Y=(A-B)/(C+D xE) 计 算 的 典型 的 单 地 址 、 双 地 址 和 三 地 址 
的 指令 。 使 用 三 地 址 ， 每 个 指令 可 指定 两 个 源 操作 数位 置 和 一 个 目的 操作 数位 置 。 因 为 我 们 希望 
不 更 改 任 一 操作 数 的 值 ， 故 使 用 T 为 中 间 结 果 的 暂 存 。 注 意 ， 原 始 的 表达 式 有 5 个 操作 数 ， 而 使 
用 三 地 址 只 需要 4 条 指令 。 

三 地 址 的 指令 格式 不 普遍 ， 因 为 
指令 格式 要 容纳 3 个 地 址 引用 ， 所 以 
指令 格式 相对 要 更 长 。 如 果 采 用 双 地 
址 指令 完成 一 次 二 元 运算 ,那么 一 个 
地 址 必须 承担 双重 任务 ， 既 用 做 源 操 
作 数 又 用 做 结果 。 于 是 ,SUB Y, B 
指令 执行 Y-B 计算 并 将 结果 保存 于 
Y。 双 地 址 格式 降低 了 空间 需求 ， 但 
也 引入 了 一 些 麻烦 。 为 避免 更 改 一 个 
操作 数 的 值 ， 要 使 用 MOVE 指令 在 完 
成 运算 之 前 将 一 个 值 传 到 最 终 或 临时 
位 置 上 去 。 图 103 示范 例子 中 ,使 
用 两 地 址 指令 的 话 需要 6 条 指令 。 BIOS: thie tat i d +0 a 

最 简单 的 还 是 单 地 址 指令 。 为 使 它 能 工作 ， 第 二 个 地 址 必须 是 隐 含 的 。 这 在 早先 机 器 中 是 很 
普遍 的 ， 其 隐 含 地 址 是 被 称 为 累加 器 (Accumulator, AC) 的 CPU 寄存 器 。 累 加 器 提供 一 个 操作 
数 ， 且 结果 被 保存 回 累 加 器 。 图 10-3 的 例子 ， 完 成 同样 的 任务 需要 8 条 单 地址 指令 。 

事实 上 ， 对 于 某 些 指令 还 可 能 有 “ 零 地 址 ”格式 。 零 地 址 指令 可 用 于 称 为 栈 (stack) 的 专 
门 存储 器 组 织 中 。 栈 是 一 种 后 人 先 出 的 结构 ， 位 于 某 个 已 知 的 位 置 ， 并 且 通 常 栈 顶部 至 少 两 个 元 
素 是 放 在 CPU 寄存 器 中 的 。 于 是 ， 零 地 址 指令 能 访问 栈 顶 两 个 元 素 。 附 录 10A 给 出 了 栈 的 描述 ， 
本 章 稍 后 以 及 第 11 章 将 进一步 说 明 栈 的 使 用 。 

表 10-1 总 结 了 具有 0，1, 2 或 3 个 地 址 的 指令 的 解释 。 表 中 的 每 种 情况 都 假定 了 下 一 指令 
地 址 是 隐 含 的 ， 指 令 的 运算 都 是 对 两 个 源 操作 数 进行 ， 并 产生 一 个 结果 操作 数 。 

每 条 指令 的 地 址 数目 是 基本 的 设计 决策 。 每 条 指令 中 的 地 址 数目 越 少 ， 则 指令 的 长 度 越 短 ， 
指令 也 更 原始 (不 需要 复杂 的 CPU) 。 另 一 方面 ， 它 又 会 使 程序 的 总 的 指令 条 数 更 多 ， 而 导致 执 













指令 注释 


SUB YAB YeA-B 


DIV 


b 两 地 址 指令 c) 单 地 址 指令 
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行 时 间 更 长 ， 程 序 也 更 长 更 复杂 。 还 有 ， 在 单 地 址 指令 和 多 地 址 指令 之 间 存 在 一 个 重要 分 界 点 。 
对 单 地 址 指令 来 说 ,程序 员 通 常 只 有 一 个 通用 寄存 器 〈 即 累加 器 ) 可 利用 。 而 对 于 多 地 址 指令 ， 
普遍 具有 多 个 通用 寄存 器 可 用 。 这 就 允许 某 些 运算 只 使 用 寄存 器 即 可 完成 。 因 为 寄存 器 访问 要 
比 存储 器 访问 快 得 多 ， 从 而 使 执行 加 快 。 为 了 灵活 性 和 能 够 使 用 多 个 寄存 器 ， 大 多 数 当 代 计 算 机 
采用 了 双 地 址 和 三 地 址 指令 的 混合 方式 。 


表 10-1 指 今 地 址 的 利用 ( 非 分 支 指令 ) 










AC<AC OP A 








T—(T-1)OP T 


YE: AC = 累加 器 
T= 栈 顶 
(T-1) = 栈 第 二 个 元 素 的 内 容 
A、B、C = 存储 器 或 寄存 器 位 置 


涉及 每 条 指令 地 址 数目 选择 的 设计 权衡 ， 被 其 他 因素 复杂 化 了 。 一 个 需要 考虑 的 设计 问题 
是 引用 到 存储 器 位 置 还 是 寄存 器 。 因 为 寄存 器 的 数目 总 是 不 太 多 ， 因 此 寄存 器 引用 只 需要 少数 
几 位 即 可 。 还 有 ， 正 如 下 一 章 将 会 看 到 的 那样 ， 一 个 机 器 会 有 各 种 寻 址 方式 ， 为 指定 这 些 方式 也 
要 占用 指令 的 一 位 或 几 位 。 结 果 ， 大 多 数 处 理 器 设计 成 有 多 种 指令 格式 。 

10.1.5 ”指令 集 设计 

计算 机 设计 的 一 个 最 有 趣 ， 也 最 受 关注 的 方面 是 指令 集 的 设计 。 指 令 集 的 设计 是 一 件 很 复 
杂 的 事情 ， 因 为 它 影响 计算 机 系统 的 诸多 方面 。 指 令 集 定义 了 处 理 器 应 完成 的 多 数 功能 ， 于 是 它 
对 处 理 器 的 实现 有 着 显著 的 影响 。 指 令 集 也 是 程序 员 控 制 处 理 器 的 方式 。 于 是 ,设计 指令 集 时 必 
须 考虑 程序 员 的 要 求 。 

当 你 知道 ， 在 有 关 指 令 集 设计 的 最 根本 出 发 点 方面 还 存在 某 些 争 议 时 ， 你 一 定 会 感到 惊奇 。 
事实 确实 如 此 。 最 近 几 年 这 种 分 歧 的 程度 实际 还 在 增长 。 这 些 最 基础 的 设计 出 发 点 中 ， 最 重要 的 
包括 : 

© 操作 指令 表 (operation repertoire): 应 提供 多 少 和 什么 样 的 操作 ， 操 作 将 是 何等 复杂 。 

o 数据 类 型 (data type): 对 哪 几 种 数据 类 型 完成 操作 。 

© 指令 格式 (instruction format): 指令 的 (位 ) 长 度 、 地 址 数目 、 各 个 字段 的 大 小 等 。 

。 BH (register): 能 被 指令 访问 的 处 理 器 寄存 器 数目 以 及 它们 的 用 途 。 

e 寻 址 (addressing): 指定 操作 数 地 址 的 产生 方式 。 

这 些 出 发 点 是 紧密 相关 的 ， 设 计 指 令 集 时 必须 一 起 考虑 。 当 然 ， 本 书 只 能 依次 考察 它们 ， 但 
我 们 也 努力 说 明 其 相关 性 。 

因为 这 些 主题 的 重要 性 ， 第 三 部 分 的 许多 篇 幅 将 用 于 介绍 指令 集 设计 。 在 此 节 综 述 之 后 ， 本 
章 将 考察 数据 类 型 和 操作 清单 。 第 11 章 考察 寻 址 模式 (其 中 也 包括 寄存 器 的 考虑 ) 和 指令 格 
式 。 第 13 章 考察 精简 指令 集 计算 机 (RISC), RISC 体系 结构 对 很 多 商业 计算 机 中 指令 集 设计 的 
传统 方式 提出 了 质疑 。 


10.2 操作 数 类 型 

机 器 指令 对 数据 进行 操作 ， 数 据 通常 分 为 : 地 址 、 数 值 、 字 符 、 人 逻辑 数据 。 

在 本 章 讨论 寻 址 方式 时 将 看 到 ， 地 址 实际 也 是 一 种 形式 的 数据 。 多 数 情况 下 ， 必 须 对 指令 中 
的 操作 数 引 用 完成 某 些 计 算 ， 才 能 确定 主 存 或 虚拟 地 址 。 此 时 ， 地 址 将 被 看 成 是 无 符号 整数 。 
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其 他 普通 数据 类 型 是 数值 、 字 符 和 逻辑 数据 ， 本 章 将 分 别 予 以 简要 的 考察 。 除 这 些 之 外 ， 某 
些 机 器 定义 了 专门 的 数据 类 型 或 数据 结构 。 例 如 ， 有 些 机 器 的 指令 可 对 字符 列表 或 字符 串 直 接 
操作 。 


10.2.1 数值 


所 有 机 器 语言 都 包括 有 数值 型 数据 类 型 。 即 使 在 一 个 非 数值 数据 的 处 理 中 ， 也 需要 某 些 数 
值 用 做 计数 、 字 段 宽度 等 。 一 般 数学 所 用 的 数值 与 计算 机 存储 的 数值 之 间 存 在 一 个 重大 不 同 ， 这 
就 是 后 者 是 受 限 的 。 这 表现 在 两 个 方面 : 首先 是 机 器 可 表示 数值 的 幅 值 是 有 限 的 ; 其 次 是 在 浮 点 
数 情况 下 数值 精度 是 有 限 的 。 于 是 ， 程 序 员 必 须 理解 伟人 、 上 溢 、 下 溢 的 意义 。 

计算 机 中 普遍 使 用 三 种 类 型 的 数值 数据 : 二 进 制 整数 或 定点 数 、 二 进 制 浮 点 数 、 十 进 制 数 。 

我 们 已 在 第 9 章 较 详细 地 考察 过 前 两 种 类 型 的 数值 数据 。 这 里 有 必要 介绍 一 下 十 进 制 数 。 

虽然 计算 机 内 部 操作 都 有 二 进 制 属性 ,但 作为 系统 的 使 用 者 一 一 人 ， 却 是 与 十 进 制 打 交道 。 
于 是 ， 有 必要 在 输入 时 将 十 进 制 转换 成 二 进 制 ， 而 在 输出 时 将 二 进 制 转换 成 十 进 制 。 对 于 有 大 量 
VO 需 处 理 而 计算 相对 较 少 、 较 简单 的 应 用 来 说 ， 以 十 进 制 形式 的 数 来 存储 、 操 作 更 为 合适 。 为 
此 ， 一 个 最 普遍 的 表示 法 是 压缩 的 或 称 打包 的 十 进 制 数 ( packed decimal number) ° 

压缩 的 十 进 制 数 用 4 位 二 进 制 代码 表示 每 个 十 进 制 数字 。0 =0000，1 =0001，…，8 = 1000 
和 9 =1001。 注 意 , 4 位 二 进 制 代码 可 有 16 个 不 同 的 值 , 但 只 上 述 10 个 代码 是 有 效 的 ， 另 外 6 
个 是 无 效 的 。 为 构成 一 个 数 ，4 位 代码 紧密 排列 在 一 起 ， 通 常 为 多 个 8 位 的 字 。 例 如 ，246 的 编 
码 是 0000 0010 0100 0110。 很 清楚 ， 这 种 表示 法 没有 二 进 制 表示 法 那样 紧凑 ， 但 它 避 免 了 转换 开 
销 。 负 数 可 以 通过 在 整个 压缩 十 进 制 数 字 串 的 前 或 后 加 上 一 个 4 位 的 符号 数字 来 表示 。 标 准 的 符 
号 数字 值 是 1100 ， 表 示 正 数 (+); 1101 表示 负数 ( - ) 。 

多 数 机 器 都 提供 了 直接 对 压缩 十 进 制 数 进行 操作 的 算术 指令 ， 算 法 类 似 于 9.3 节 的 介绍 ， 但 
必须 注意 十 进 制 的 进位 操作 。 


10.2.2 ”字符 


另 一 种 常用 的 数据 类 型 是 文本 或 字符 串 。 文 本 数据 对 于 人 来 说 使 用 是 很 方便 的 ， 但 在 数据 
处 理 和 通信 系统 中 ， 却 不 便于 以 字符 形式 存储 或 发 送 。 因 为 数据 处 理 和 通信 系统 都 是 被 设计 来 
处 理 二 进 制 数据 的 。 于 是 ,研究 人 员 研 制 了 几 种 编码 方式 将 字符 表示 成 二 进 制 的 位 序列 。 最 早 的 
编码 或 许 是 莫 尔 斯 电码 (Morse Code)。 今 天 使 用 最 广泛 的 字符 编码 是 国际 参考 字母 表 ( Interna- 
tional Reference Alphabet，IRA) ， 在 美国 称 为 ASCI 码 (美国 信息 交换 标准 码 ，American Standard 
Code for Information Interchange) ， 见 附录 了。 在 这 种 编码 中 ， 每 个 字符 被 表示 成 唯一 的 7 位 二 进 
制 串 ， 于 是 共有 128 个 可 表示 字符 。 这 个 数量 比 可 打印 字符 数量 多 ， 故 某 些 “位 样式 ” (Bit Pat- 
tern) 用 来 代表 “控制 字符 ” (control character) 。 一 些 控 制 字符 用 来 控制 字符 的 按 页 打印 ; 而 另 
一 些 则 用 来 控制 通信 过 程 。IRA 编码 的 字符 几乎 总 是 以 每 字符 8 位 来 存储 和 发 送 的 。 第 8 位 可 设 
置 成 0 或 用 做 错误 检测 的 奇偶 校 验 位 。 后 一 种 情况 下 ， 要 这 样 设置 该 位 ， 使 得 在 每 个 8 位 中 二 进 
制 1 的 数目 或 者 总 是 奇数 个 〈 奇 校 验 ) ， 或 者 总 是 偶数 个 〈 偶 校 验 ) 。 

注意 ,在 表 F-1 (附录 下 ) 中 数字 0 ~9 的 IRA 代码 的 位 样式 是 011 x x x x ， 其 中 最 后 4 
位 x x x x 恰恰 正 是 0000 到 1001， 即 压缩 十 进 制 数 的 编码 。 因 此 在 7 位 IRA 代码 和 4 位 压缩 十 
进 制 表 示 之 间 转 换 是 非常 方便 的 。 





O 教科 书 经 常 将 其 称 为 二 进 制 编码 的 十 进 制 数 (Binary Coded Decimal ，BCD) 。 严 格 地 说 ，BCD 指 的 是 用 4 位 编码 十 
进 制 数字 ， 而 压缩 的 十 进 制 数 指 的 是 用 一 字 节 存 人 两 个 BCD 编码 的 十 进 制 数 。 
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用 于 字符 编码 的 另 一 类 代码 是 EBCDIC (Extended Binary Coded Decimal Interchange Code, $ 
展 的 二 进 制 编码 的 十 进 制 交换 码 )。 它 是 一 种 8 位 编码 ， 被 用 于 IBM 制造 的 大 型 机 中 。 与 IRA 一 
样 ，EBCDIC 与 压缩 十 进 制 是 有 互 换 性 的 ， 代 码 11110000 到 11111001 表示 数字 0 ~9。 


10.2.3 ZKE 


正常 情况 下 ， 每 个 字 或 其 他 可 寻 址 单元 〈 字 节 、 半 字 等 ) 是 作为 一 个 单一 数据 单元 看 待 的 。 
然而 ， 某 些 时 候 需 要 将 一 个 位 单元 看 成 是 由 个 1 位 项 组 成 ， 每 项 有 值 0 或 1。 当 以 这 种 方式 
看 待 数据 时 ， 该 数据 就 被 认为 是 远 辑 数据 。 

这 种 位 排列 观点 有 两 个 优点 。 第 一 ， 有 时 我 们 希望 存储 一 个 布尔 或 二 进 制 数据 项 序列 ， 序 列 
中 的 每 项 只 能 取 值 1 (A) 或 0 ( 假 )。 逻 辑 数据 对 于 这 种 情况 而 言 能 实现 存储 器 最 有 效 的 使 用 。 
第 二 ， 逻 辑 数据 有 利于 实现 对 数据 项 的 具体 位 进行 操纵 。 例 如 ， 如 果 浮 点 运算 是 以 软件 实现 的 ， 
那么 我 们 需要 能 在 某 些 操作 中 移动 有 效 位 。 另 一 例子 是 ， 由 IRA 转换 到 压缩 十 进 制 时 ， 我 们 需 
要 提取 出 每 字 节 的 最 右边 4 位 。 

注意 ， 在 上 面 例子 中 ， 同 一 个 数据 有 时 看 作 是 逻辑 数据 ， 而 有 时 看 作 是 数值 或 文本 。 数 据 单 
元 的 类 型 由 当前 在 它 上 面 正 在 完成 的 操作 所 确定 。 在 高 级 语言 中 〈 如 Pascal 语言 ) ， 一 般 不 是 这 
种 情况 ， 而 在 机 器 语言 中 几乎 总 是 这 种 情况 。 


10.3 Intel x86 和 ARM 数据 类 型 


10.3.1 x86 数据 类 型 

x86 能 处 理 8 位 ( 字 节 )、16 位 ( 字 )、32 位 (WF), 64 (WF) 和 128 位 〈 双 四 字 ) 
各 种 长 度 的 数据 类 型 。 为 允许 最 大 的 数据 结构 灵活 性 和 最 有 效 地 使 用 存储 器 ， 字 不 需要 在 偶数 
地 址 上 对 齐 ， 双 字 也 不 需要 在 4 倍 整数 地 址 上 对 齐 ， 四 字 也 不 需要 在 8 倍 整数 地 址 上 对 齐 ， 其 他 
类 推 。 然 而 ， 当 经 由 32 位 总 线 存 取 数据 时 ， 数 据 传 送 是 以 双 字 为 单位 进行 的 ， 双 字 的 起 始 地 址 
是 能 被 4 整除 的 。 处 理 器 要 将 对 于 未 对 齐 值 的 访问 请 求 ， 转 换 成 一 序列 的 总 线 传送 请 求 。 像 所 有 
的 80x86 机 器 一 样 ，x86 也 采用 小 端 序 (little-endian ordering) 风格 ， 即 最 低 有 效 字 节 存 于 最 低地 
址 中 ( 见 本 章 后 面 的 附录 10B 对 端 序 的 讨论 ) 。 

字 节 、 字 、 双 字 、 四 字 和 双 四 字 称 为 常规 数据 类 型 。 另 外 ，x86 支持 一 系列 的 特殊 数据 类 
型 ， 这 些 特 殊 数据 类 型 只 被 特殊 指令 所 识别 和 操作 。 表 10-2 总 结 了 所 有 这 些 数据 类 型 。 


表 10-2 x86 数据 类 型 


























数据 类 型 说 明 
常规 字 节 、 字 (16 位 )、 双 字 (32 位 )、 四 字 (64 位 ) 和 双 四 字 
(128 位 ) 可 包含 任意 二 进 制 数据 
整数 字 节 、 字 或 双 字 中 的 有 符号 二 进 制 值 ， 使 用 2 的 补 码 表示 法 
序数 ( Ordinal) 字 节 、 字 或 双 字 中 的 无 符号 整数 
未 压缩 的 二 进 制 编码 的 十 进 制 数 (BCD) 范围 0~9 的 BCD 数字 表示 ， 每 字 节 一 个 数字 
压缩 的 BCD 每 字 节 表示 两 个 BCD 数字 ， 每 字 节 值 是 0 ~99 
近 指 针 表示 段 内 偏 移 的 16 位 ，32 位 或 64 位 有 效 地 址 。 可 用 于 不 分 段 


存储 器 中 的 所 有 指针 和 分 段 存 储 器 中 的 段 内 访问 
由 16 位 段 选择 符 (segment selector) 和 16 位 、32 位 或 64 位 偏 
远 指针 移 量 组 成 的 逻辑 地 址 。 远 指针 可 用 于 分 段 存 储 中 的 内 存 引 用 ， 其 
中 被 访问 的 段 标识 必须 被 显 式 指定 


mie 一 个 连续 的 位 序列 ， 每 位 位 置 都 认为 是 一 个 独立 的 单位 。 能 以 
人 任何 字 节 的 任何 位 位 置 开始 一 个 位 字段 ， 位 字段 最 长 可 有 32 位 
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( 续 ) 





















位 串 





一 个 连续 位 的 位 序列 ， 可 包含 0 到 22 -1 个 位 

















字 节 串 (Byte string) 一 个 连续 的 字 节 、 字 或 双 字 的 序列 ， 可 包含 0 到 2”-1 个 字 节 
浮 点 数 见 图 10-4 
压缩 的 SIMD( 单 指令 多 数据 ) 压缩 的 64 位 或 128 位 数据 类 型 


图 10-4 展示 了 x86 数值 数据 类 
型 。 有 符号 整数 是 以 2 的 补 码 表示 的 ， 
可 以 是 16、32 或 64 位 长 。 浮 点 数 类 
型 实际 指 可 被 浮 点 运算 单元 使 用 和 可 
被 浮 点 指令 操作 的 一 组 数据 类 型 。 三 
种 浮 点 数 表示 都 是 符合 IEEE 754 标 
准 的 。 
压缩 的 SIMD ( single-instruction- 
multiple-data， 单 指令 多 数据 ) 数据 类 
型 是 为 了 优化 多 媒体 应 用 的 性 能 ， 作 
为 一 种 对 指令 集 的 扩展 ， 添 加 到 x86 
体系 结构 中 来 的 。 这 些 扩展 包括 MMX 
( multimedia extension ， 多 媒体 扩展 ) 
和 SSE (streaming SIMD extension, it 
式 SIMD 扩展 ) 。 基 本 的 思想 是 把 多 个 
操作 数 打 包 为 一 个 内 存 引 用 项 ， 并 且 
并 行 地 操作 这 些 操 作 数 ， 从 而 提高 性 
能 。 压 缩 的 SIMD 数据 类 型 包括 : 
。 压缩 的 字 节 和 压缩 的 字 节 整 
数 : 多 个 字 节 被 打包 到 一 个 64 位 的 四 字 (quadword) 或 128 位 的 双 四 字 (double quad- 
word) 中 ， 并 被 当 作 位 字段 或 整数 。 
。 压缩 的 字 和 压缩 的 字 整 数 : 多 个 16 位 的 字 被 打包 到 一 个 64 位 的 四 字 (quadword) 或 128 
位 的 双 四 字 (double quadword) 中 ， 并 被 当 作 位 字段 或 整数 。 
。 压缩 的 双 字 和 压缩 的 双 字 整数 : 多 个 32 位 的 字 被 打包 到 一 个 64 位 的 四 字 (quadword) 或 
128 位 的 双 四 字 (double quadword) 中 ， 并 被 当 作 位 字段 或 整数 。 
。 压缩 的 四 字 和 压缩 的 四 字 整 数 : 两 个 64 位 的 字 被 打包 到 一 个 128 位 的 双 四 字 (double 
quadword) 中 ， 并 被 当 作 位 字段 或 整数 。 
。 压缩 的 单 精度 浮 点 数 和 压缩 的 双 精 度 浮 点 数 : 四 个 32 位 的 单 精度 浮 点 数 或 两 个 64 位 双 
精度 浮 点 数 被 打包 到 一 个 128 位 的 双 四 字 (double quadword) 中 。 


| 字 节 无 符号 整数 
0 
J] ” 字 无 符号 整数 





双 字 无 符号 整数 


10.3.2 ARM 数据 类 型 


ARM 处 理 器 支持 8 位 〈 字 节 )、16 位 ( 半 字 )、32 位 (F) 各 种 长 度 的 数据 类 型 。 通 常 ， 
半 字 数据 的 访问 要 对 齐 到 半 字 地 址 ， 字 数据 的 访问 要 对 齐 到 字 地 址 。 对 于 未 对 齐 的 访问 请 求 ， 
ARM 提供 了 3 种 可 选 方案 : 
e 默认 情况 : 
© 非 对 齐 的 地 址 将 被 截断 ， 即 当 访 问 字 时 ， 地 址 位 bits [1:0] 会 被 当 作 0， 而 访问 半 字 
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时 ， 地 址 位 bits [0] 被 当 作 0。 
4 载 人 单个 字 的 ARM 指令 遇 到 非 字 对 齐 的 地 址 时 ， 会 以 此 地 址 对 字 对 齐 的 数据 循环 右 移 
一 个 ， 两 个 或 三 个 字 节 ， 具 体操 作 根据 非 对 齐 地 址 最 低 两 位 的 值 而 定 。 
e 对 齐 检查 : 如 果 设 置 了 相应 的 控制 位 ， 试 图 访问 非 对 齐 地 址 时 ， 会 产生 一 个 数据 取消 
(data abort) 信号 ， 表 明 发 生 了 一 个 非 对 齐 访问 错误 。 
© 非 对 齐 访问 : 如 果 设 置 了 允许 非 对 齐 访问 这 一 选项 ， 处 理 器 将 通过 一 次 或 多 次 内 存 访问 ， 
获得 非 对 齐 地 址 所 指定 的 字 节 ， 并 返回 给 程序 。 
所 有 这 三 种 数据 类 型 ( 字 节 、 半 字 、 字 ) 都 支持 使 用 无 符号 表示 。 此 时 ， 数 据 所 表示 的 值 
是 一 个 无 符号 ， 非 负 的 整数 。 所 有 数据 类 型 也 支持 使 用 2 的 补 码 表 示 有 符号 整数 。 
大 部 分 的 ARM 处 理 器 实现 都 不 支持 浮 点 硬件 ， 这 可 以 节省 功 耗 和 芯片 面积 。 如 果 这 些 处 理 
器 需要 浮 点 运算 ， 那 么 就 只 能 通过 软件 来 提供 。ARM 可 以 带 一 个 浮 点 协 处 理 器 ,利用 浮 点 协 处 
理 器 可 以 支持 IEEE 754 标准 所 规定 的 单 精度 和 双 精 度 浮 点 数据 类 型 。 
端 序 支持 
程序 可 以 通过 SETEND 指令 设置 和 清除 ARM 处 理 器 中 系统 控制 寄存 器 的 端 序 状 态 位 CE 
位 ) 。 开 位 定义 了 采用 哪 种 端 序 来 装载 和 保存 数据 。 图 10-5 通过 字 装 载 和 保存 操作 显示 了 下 位 的 
功能 。 当 系统 设计 人 员 需 要 使 用 不 同 端 序 来 访问 操作 系统 和 环境 系统 数据 结构 时 ， 端 序 选择 机 
制 为 系统 设计 人 员 在 动态 装载 和 保存 数据 时 提供 了 方便 。 注 意 ， 每 个 数据 字 节 的 地 址 在 内 存 中 
是 固定 的 ， 不 过 寄存 器 中 的 字 节 排列 在 不 同 端 序 下 是 不 同 的 。 


内 存 中 的 数据 字 节 
(从 字 节 0 到 字 节 3 内 存 地 
ite FH EI 






ARM #4238 ARM 寄 存 器 


程序 状态 寄存 器 E 位 =0 程序 状态 寄存 器 E 位 =1 
图 10-5 ARM 的 端 序 支持 一 一 不 同 卫 位 值 时 的 字 装 载 和 保存 


10.4 ”操作 类 型 

不 同 的 机 器 ， 其 操作 码 的 数目 变动 是 很 大 的 。 然 而 ， 在 所 有 机 器 上 都 会 发 现 相同 的 常用 操作 
类 型 。 操 作 的 典型 分 类 包括 : 数据 传送 、 算 术 、 人 逻辑 、 转 换 〈Conversion) 、 输 入 /输出 、 系 统 控 
制 、 控 制 转移 。 

表 10-3 (以 [HAYE98] 为 基础 ) 列 出 了 每 一 类 操作 的 常见 指令 类 型 。 本 节 对 这 些 各 种 类 型 
的 操作 提供 一 个 简短 的 综述 ， 并 结合 处 理 器 执行 具体 操作 类 型 时 所 采取 的 动作 予以 简要 讨论 
(总 结 见 表 10-4) 。 后 一 主题 还 要 在 第 12 章 进行 更 详细 的 考察 。 


表 10-3 常用 指令 集 操作 








Move( transfer) 由 源 向 目标 传送 字 或 块 








Store | 由 处 理 器 向 存储 器 传送 字 


数据 传送 Load (fetch) ee ee 
Exchange 源 和 目标 交换 内 容 











类 型 


数据 传送 


算术 运算 


逻辑 运算 


控制 转移 


输入 /输出 
(1/0) 


转换 


操作 名 


Clear( reset ) 
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( 续 ) 





传送 全 0 字 到 目标 





| 
| 一 


传送 全 1 字 到 目标 








Subtract 





由 源 向 栈 顶 传送 字 
由 栈 顶 向 目标 传送 字 








计算 两 个 操作 数 的 和 


计算 两 个 操作 数 的 差 





t 





Multiply 





计算 两 个 操作 数 的 积 





Divide 





计算 两 个 操作 数量 商 
以 其 绝对 值 蔡 代 操作 数 








Absolute 
Negate 


Increment 





改变 操作 数 的 符号 
操作 数 加 1 





Decrement 
AND 
OR 





操作 数 减 1 
执行 逻辑 与 操作 
执行 逻辑 或 操作 








NOT( complement) 


执行 逻辑 非 操 作 
执行 逻辑 异 或 操作 





Compare 


测试 指定 的 条 件 ; 根据 结果 设置 标志 
对 两 个 或 多 个 操作 数 进行 逻辑 的 或 算术 的 比较 ; 根据 结果 设置 标志 





Exclusive-OR 

Test 

Set 控制 变量 

Shift 


出 于 保护 目的 、 中 断 管理 、 时 间 控 制 等 原因 进行 设置 控制 的 一 类 指令 
Fe (A) 移 位 操作 数 ， 一端 引入 常数 








Rotate 


Jump( branch) 





循环 左 ( 右 ) 移 位 操作 数 
无 条 件 转移 ; 向 PC 装 人 指定 地 址 


























Jump 条 件 测试 指定 的 条 件 ， 根 据 条 件 或 将 指定 地 址 装 入 PC 或 什么 也 不 做 
Jump 子 程序 将 当前 程序 控制 信息 放 到 一 个 已 知 位 置 转移 到 指定 地 址 
Return FHV a4 RE PC 和 其 他 寄存 器 的 内 容 
Execute 由 指定 位 置 取 操作 数 并 作为 指令 执行 不 修改 PC 

PC 加 1 以 跳 过 下 一 指令 
Skip 条 件 测试 指定 条 件 ; 基于 条 件 或 跳 步 或 不 跳 步 
Halt 停止 程序 执行 
Wait(hold) 暂停 程序 执行 ; 重复 测试 指定 条 件 ; 当 条 件 满足 时 恢复 执行 

无 操作 完成 ; 但 程序 执行 继续 


Input( read ) 
Output ( write ) 


Start I/O 


由 指定 的 O 端口 或 设备 传送 数据 到 目标 (如 主 存 或 处 理 器 寄存 器 ) 


由 指定 的 源 传送 数据 到 IO 端口 或 设备 
向 VO 处 理 器 传送 指令 以 初始 化 VO 操作 





Test /O 


Translate 





H VO 系统 向 指定 目标 传送 状态 信息 
根据 一 个 对 应 表 转 换 某 一 段 内 存 的 值 





Convert 








将 字 的 内 容 由 一 种 形式 转换 到 另 一 种 形式 ( 如 压缩 的 十 进 制 转换 到 二 
进 制 ) 
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表 10-4 各 种 操作 类 型 的 CPU 动作 
从 一 个 位 置 向 另 一 个 位 置 传送 数据 















































若 涉及 存储 器 : 
ES 确定 存储 器 地 址 
进行 虚 地 址 到 实地 址 的 转换 
检查 cache 
发 出 存储 器 读 写 命令 
在 此 之 前 和 (R) 之 后 ， 可 能 有 数据 传送 
算术 运算 在 ALU 内 完成 运算 
设置 条 件 代 码 和 标志 
逻辑 运算 与 算术 运算 相同 
转换 类 似 于 算术 和 逻辑 ， 为 完成 转换 可 能 涉及 特殊 逻辑 
控制 传递 修改 程序 计数 器 (PC) 。 为 了 程序 调用 /返回 ， 还 需 管理 参数 传递 和 链接 
向 VO 模块 发 命令 
人 /输出 (IO 
本 若是 存储 器 映射 式 IO ， 确 定 存储 器 映射 地 址 
10.4.1 数据 传送 


最 基础 的 机 器 指令 类 型 是 数据 传送 指令 。 数 据 传送 指令 必须 指明 几 件 事 情 。 第 一 ， 源 和 目标 
操作 数 的 位 置 必须 指明 。 每 个 位 置 可 能 是 存储 器 、 寄 存 器 或 栈 顶 。 第 二 ， 必 须 指明 将 要 传送 数据 
的 长 度 。 第 三 ， 像 所 有 带 操作 数 的 指令 一 样 ， 必 须 为 每 个 操作 数 指明 寻 址 方式 。 这 最 后 一 点 将 在 
第 11 章 讨论 。 

选取 什么 样 的 数据 传送 指令 包括 在 指令 集 内 ， 是 设计 人 员 必 须 进行 权衡 考虑 的 范例 。 例 如 ， 
操作 数 的 通常 位 置 (存储 器 或 寄存 器 ) 是 以 操作 数 或 操作 码 的 类 型 来 指明 。 表 10-5 列 出 了 最 常 
用 的 IBM S/390 的 数据 传送 指令 例子 。 注 意 ， 这 里 有 用 于 表示 将 要 传送 数据 长 度 (8、16、32 或 
64 位 ) 的 不 同 版 本 。 还 有 ， 对 寄存 器 到 寄存 器 ， 寄 存 器 到 存储 器 和 存储 器 到 寄存 器 的 传送 ， 采 
用 的 是 不 同 的 指令 。 与 之 对 比 ，VAX 机 是 使 用 带 有 不 同 传送 数据 长 度 版 本 的 MOV 指令 ， 不 过 它 
把 指示 操作 数 是 在 寄存 器 还 是 在 存储 器 中 的 信息 ， 作 为 操作 数 的 一 部 分 。VAX 的 方法 对 于 程序 
员 来 说 是 相对 容易 的 ， 他 只 需要 与 较 少 的 助 记 符 打交道 。 然 而 ， 它 没有 IBM S/370 方法 那样 紧 
次， 因为 每 个 操作 数 的 位 置 〈 寄 存 器 还 是 存储 器 ) 必须 在 指令 中 分 别 指定 。 当 下 一 章 讨论 指令 
格式 时 我 们 再 返回 到 这 个 问题 上 来 。 


表 10-5 IBM S/390 数据 传送 操作 例子 


操作 助 记 符 名 字 说 明 
L Load 由 存储 器 传送 到 寄存 器 
LH Ta Hliva EE 由 存储 器 传送 到 寄存 器 
LR Load - 由 寄存 器 传送 到 寄存 器 
LER Load (Short) 浮 点 寄存 器 间 的 传送 


LE Load (Short) 由 存储 器 传送 到 浮 点 寄存 器 
LDR Load (Long) 浮 点 寄存 器 间 的 传送 
LD Load (Long) 由 存储 器 传送 到 浮 点 寄存 器 
ST Store 由 寄存 器 传送 到 存储 器 


32 

16 

32 

32 

32 

64 

64 

32 
STH Store Halfword 由 寄存 器 传送 到 存储 器 
STC Store Character 一 一 一 由 寄存 器 传送 到 存储 器 

32 









































= an 




















STE Store (Short) 由 浮 点 寄存 器 传送 到 存储 器 
STD Store (Long) 由 浮 点 寄存 器 传送 到 存储 器 
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以 处 理 器 动作 而 言 ， 数 据 传送 操作 也 许 是 最 简单 的 类 型 。 若 源 和 目标 都 是 寄存 器 ， 则 处 理 器 
只 要 使 数据 从 一 个 寄存 器 传送 到 另 一 个 即 可 ; 这 是 处 理 器 内 部 操作 。 若 一 个 或 两 个 操作 数 是 在 
存储 器 中 ， 则 处 理 器 必须 完成 如 下 某 些 或 全 部 动作 : 

(1) 根据 寻 址 方式 (第 11 章 讨论 ) ， 计 算 存储 器 地 址 。 

(2) 若 地 址 指 的 是 虚拟 存储 器 ， 则 将 虚 地 址 转换 成 物理 存储 器 地 址 。 

(3) 确定 所 寻找 的 项 是 否 在 高 速 缓存 〈cache) H, 

(4) 如 果 不 是 ， 向 存储 器 模块 发 命令 。 


10.4.2 算术 运算 


大 多 数 机 器 都 提供 了 加 、 减 、 乘 、 除 这 样 的 基本 算术 指令 。 这 些 操作 总 是 为 有 符号 整数 
(定点 数 ) 提供 ， 也 经 常 为 浮 点 数 和 压缩 十 进 制 数 提供 。 

其 他 可 能 有 的 操作 包括 各 种 单 操作 数 指令 。 例 如 : 

e Absolute: 取 一 个 操作 数 的 绝对 值 。 

e Negate: 取 一 操作 数 的 负数 。 

e Increment: 操作 数 加 1。 

e Decrement: 操作 数 减 1, 

一 条 算术 指令 的 执行 会 涉及 数据 传送 操作 ,来 为 算术 和 逻辑 单元 (ALU) 准备 输入 ， 并 传 
送 ALU 的 输出 。 图 3-5 说 明了 在 算术 运算 中 所 涉及 的 数据 传送 活动 。 当 然 ， 处 理 器 的 ALU 部 分 
还 要 完成 所 要 求 的 运算 。 
10.4.3 sich 

大 多 数 机 器 也 提供 处 理 一 个 字 或 其 他 可 寻 址 单元 中 的 个 别 位 的 操作 ， 这 常 被 称 为 “位 操纵 ” 
(bit twiddling) 。 它 们 的 基础 是 布尔 运算 (LSS 20 章 ) 。 


能 在 布尔 或 二 进 制 数 据 上 完成 的 某 些 基 本 逻辑 操作 列 于 表 10-6 Ho NOT 操作 取 一 位 的 反 。 
与 或 、 异 或 (XOR) 是 有 两 个 操作 数 的 最 常见 逻辑 功能 。EQUAL 是 一 个 有 用 的 二 进 制 测试 。 


表 10-6 基本 的 逻辑 操作 




















这 些 逻 辑 操作 能 施加 到 位 的 逻辑 数据 单元 上 。 于 是 ， 若 两 个 寄存 器 含有 如 下 数据 
(R1) =10100101 
(R2) =00001111 
则 
(R1) AND(R2) =00000101 
其 中 (X) 表示 位 置 X 中 的 内 容 。 从 这 个 例子 可 以 看 到 ，AND 操作 能 用 来 屏蔽 (mask) 一 个 字 ， 
选 出 字 中 的 某 些 位 ， 而 其 他 位 为 0。 作 为 另 一 例子 ， 若 两 个 寄存 器 含有 : 
(R1) =10100101 
(R2) =11111111 
则 
(R1) XOR(R2) =01011010 
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对 于 一 个 全 1 的 字 ， 则 XOR 操作 会 将 另 一 字 的 各 位 取 反 (1 的 补 码 ) 。 

除了 按 位 的 逻辑 操作 ， 大 多 数 机 器 也 提供 了 移 位 和 旋转 (rotating) 功能 。 最 基本 的 操作 说 
明 在 图 10-6 中 。 逻 辑 移 位 (logical shift) ， 一 个 字 的 各 位 
左 移 或 右 移 ， 一 端 移出 的 位 丢失 ， 另 一 端 则 是 移 人 人 0。 你 
辑 移 位 主要 用 于 隔离 字 中 的 各 位 段 。 移 人 字 中 的 那些 0 
挤 走 了 不 需要 的 信息 ， 它 们 从 另 一 端 被 移 去 。 

举 个 例子 ， 假 设 我 们 希望 每 次 1 个 字符 地 将 数据 字 
符 发 送 到 VO 设备 。 若 每 个 存储 器 字 是 16 位 长 含有 两 个 
字符 ， 则 在 发 送 之 前 必须 先 折 包 字符 。 送 出 字 中 的 两 个 
学 符 : 

(1) 将 此 字 装 入 一 个 寄存 器 。 

(2) 右 移 8 Kk, 这 将 把 剩 下 的 字符 移 到 寄存 器 的 右 
半 部 。 

(3) 执行 VO 操作 。 此 时 IO 模块 将 读 取 数据 总 线 
的 低 8 位 。 

上 述 步骤 发 送 了 该 字 左 半 部 的 字符 。 要 发 送 右 半 部 _ 
的 字符 : FI 
(1) 再 一 次 将 此 字 装 入 寄存 器 。 TO 









(2) 与 (AND) 0000000011111111。 这 将 屏蔽 掉 左 图 10-6 移 位 和 旋转 操作 
半 部 的 字符 。 


(3) 执行 VO 操作 。 

算术 移 位 (arithmetic shift) 操作 是 将 数据 看 作 有 符号 整数 而 不 移 符 号 位 。 对 于 算术 右 移 ， 
符号 位 一 般 是 复制 到 它 右边 空 出 的 位 。 对 于 算术 左 移 ， 除 了 符号 位 不 变 外 ， 其 余 位 的 操作 和 逮 辑 
左 移 一 样 。 这 些 操作 能 加 速 某 些 算 术 运 算 。 对 于 以 2 的 补 码 表示 的 数 ， 算 术 右 移 相 当 于 除 以 2; 
原 数 为 奇数 的 话 ， 则 被 截断 。 无 溢出 时 ， 算 术 左 移 和 逻辑 左 移 都 相当 于 乘 以 2。 如 果 出 现 溢出 ， 算 
术 左 移 和 逻辑 左 移 将 产生 不 同 的 结果 ， 但 算术 左 移 仍 保留 数 的 符号 不 变 。 因 为 有 潜在 的 溢出 问题 ， 
许多 处 理 器 ， 包 括 PowerPC 和 Itanium， 不 提供 这 种 左 移 指令 。 其 他 ， 如 IBM EAS/390， 提 供 这 种 指 
令 。 奇 怪 的 是 ，x86 体系 结构 提供 了 一 条 算术 左 移 指令 ， 但 将 它 定义 成 等 同 于 逻辑 左 移 指令 。 

旋转 (Rotate) 或 循环 移 位 (cyclic shift) 操作 保留 了 被 操作 数 的 所 有 位 。 旋 转 的 一 个 可 能 
用 途 是 连续 地 将 各 个 位 移 到 最 左 位 ， 从 而 可 通过 测试 符号 位 (将 其 当 作 一 个 数 ) 来 识别 各 个 位 。 

与 算术 操作 一 样 ， 逻 辑 操 作 涉 及 ALU 动作 并 且 会 涉及 数据 传送 操作 。 表 10-7 给 出 了 本 小 节 
讨论 过 的 所 有 移 位 和 旋转 操作 的 例子 。 


表 10-7 移 位 和 旋转 操作 举例 
























10100110 逻辑 右 移 (3 位 ) 00010100 10100110 逻辑 左 移 (3 位 ) 00110000 



















10100110 
10100110 


11110100 
11010100 


10100110 
10100110 


算术 左 移 (3 位 ) 
循环 左 移 (3 位 ) 


10110000 
00110101 














算术 右 移 (3 位 ) 
循环 右 移 (3 位 ) 
10.4.4 转换 


转换 指令 改变 数据 格式 或 对 数据 格式 进行 操作 。 一 个 转换 例子 是 由 十 进 制 转 到 二 进 制 。 一 
个 更 复杂 的 编辑 转换 指令 例子 是 EAS/390 的 翻译 (Translate, TR) 指令 。 这 条 指令 能 用 来 将 一 
种 8 位 编码 转换 成 男 一 种 形式 编码 ， 它 有 三 个 操作 数 : 
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TR RI (L), R2 
R2 包含 一 个 8 位 编码 表 的 起 始 地 址 。 指 令 以 R1 指定 地 址 开始 ， 翻 译 连续 的 工 个 字 节 ， 每 个 字 节 
被 以 此 字 节 为 索引 的 编码 表 项 内 容 所 替代 。 例 如 ， 由 EBCDIC 转换 成 IRA。 我 们 首先 要 在 存储 位 
置 ， 例 如 1000 ~ 10FF， 生 成 一 个 256 字 节 的 表 。 表 项 的 内 容 是 字符 的 IRA 编码 ， 表 项 的 排序 是 
按 EBCDIC 编码 的 二 进 制 表示 值 的 大 小 ， 由 小 到 大 排列 ; 即 某 字符 的 IRA 编码 放 入 表 中 的 相对 位 
置 等 于 此 字符 的 EBCDIC 编码 值 。 例如， 数字 0 到 9 的 IRA 编码 值 为 30 到 39， 其 EBCDIC 编码 
值 为 F0 到 F9， 故 在 10F0 到 10F9 的 表 项 位 置 中 有 值 30 到 39。 现 在 ,假定 在 2100 位 置 处 开始 有 
数字 1984 的 EBCDIC 码 。 我 们 要 求 把 它们 转换 成 IRA 编码 。 假 定 : 

e 位 置 2100 ~2103 处 含有 Fl FO F8 F4 

e RI 中 有 2100 

e R2 中 有 1000 

若 我 们 执行 : 

TR R1 (4), R2 

位 置 2100 ~2103 将 会 有 31 39 38 34, 


10.4.5 输入 /输出 


第 7 章 已 经 较 详细 地 讨论 了 输入 /输出 (WO0) 指令 。 正 如 我 们 看 到 的 ， 输入 /输出 可 选取 几 
种 方式 ， 包 括 分 立 的 编程 控制 的 VO、 存储 映射 的 编程 控制 的 VO、DMA 和 使 用 IO 处 理 器 。 多 
数 实现 是 只 提供 少数 几 条 IO 指令 ， 由 参数 、 代 码 或 命令 字 来 指定 所 要 求 的 动作 。 


10.4.6 ”系统 控制 


系统 控制 指令 通常 是 特权 指令 ， 仅 当 处 理 器 正 处 于 某 种 特权 状态 时 ， 或 程序 正在 一 个 专门 
的 特权 存储 区 域 中 执行 时 才能 执行 它 。 一 般 而 言 ， 这 些 指 令 保留 给 操作 系统 使 用 。 

系统 控制 操作 的 某 些 例子 如 下 ， 一 条 系统 控制 指令 可 读 取 或 更 改 控 制 寄存 器 的 内 容 ， 我 们 
将 在 第 12 章 讨论 控制 寄存 器 。 另 一 例子 是 ， 像 在 EAS/390 存储 系统 中 使 用 的 ， 读 或 修改 一 个 存 
储 保护 键 的 指令 。 再 一 个 例子 是 多 道 程 序 系 统 中 存 取 进 程控 制 块 。 


10.4.7 ”控制 转移 


至 此 所 讨论 过 的 所 有 操作 类 型 ， 指 令 指 定 的 是 将 要 完成 的 操作 和 操作 数 。 隐 含 地 ， 下 一 条 将 
要 执行 的 指令 ， 是 在 存储 器 中 当前 指令 之 后 的 那 条 指令 。 然 而 ， 任 何 程序 都 有 相当 一 部 分 指令 具 
有 改变 指令 执行 顺序 的 功能 。 对 于 这 些 指令 ，CPU 所 完成 的 操作 是 将 程序 计数 器 修改 为 某 条 指 
令 的 存储 器 地 址 。 

有 几 个 理由 说 明 为 何 需要 控制 转移 操作 。 其 中 最 重要 的 是 : 

(1) 在 计算 机 的 实际 应 用 中 ， 可 以 不 止 一 次 甚至 上 千 次 地 重复 执行 某 些 指令 ， 这 种 能 力 是 
至 关 重 要 的 。 实 现 一 个 应 用 需要 上 千 条 甚至 上 百 万 条 指令 。 若 每 条 指令 必须 分 别 写 出 ， 这 将 是 不 
可 思议 的 事情 。 若 一 个 表 或 列表 需要 处 理 ， 则 可 使 用 程序 循环 的 方法 ， 一 个 指令 序列 重复 执行 直 
到 所 有 数据 被 处 理 完毕 。 

(2) 实际 上 ， 所 有 程序 都 涉及 某 种 裁决 。 我 们 希望 计算 机 能 在 满足 某 种 条 件 下 做 某 件 事情 ， 
另 一 种 条 件 满足 时 做 另 一 件 事情 。 例 如 ， 一 个 指令 序列 计算 数 的 平方 根 。 在 序列 开始 时 应 该 测试 
数 的 符号 位 ， 若 是 负数 ， 则 不 进行 计算 而 报告 出 错 。 

(3) 正确 地 编写 一 个 大 型 的 即使 是 中 等 规模 的 计算 机 程序 ， 也 是 一 个 极其 困难 的 任务 。 若 
能 将 此 任务 分 成 小 的 片段 ， 每 次 只 工作 在 一 个 片段 上 ， 将 是 有 益 的 。 

现在 ， 可 以 开始 指令 集中 最 常见 的 控制 转移 操作 的 讨论 了 ， 它 们 是 : 分 支 (branch) ; 跳 步 


236 … 第 三 部 分 ”中央 处 理 器 


(skip) ; 过 程 调用 。 

1. 分 支 指令 

分 支 (Branch) 指令 亦 称 为 跳 转 (Jump) 指令 ， 它 把 将 要 执行 的 下 一 条 指令 的 地 址 作为 它 
的 一 个 操作 数 。 使 用 最 多 的 是 条 件 分 支 (conditional branch) 指令 ， 即 仅 当 某 种 条 件 被 满足 时 才 
进行 转移 〈 将 程序 计数 器 的 值 更 改 为 操作 数 指定 的 地 址 ) ; 否则 ， 顺 序 执行 下 一 条 指令 〈 像 通常 
那样 程序 计数 器 加 1 ) 。 无 条 件 分 支 (unconditional branch) 指令 则 总 是 转移 。 

有 两 种 常用 的 方式 来 生成 条 件 分 支 指令 中 将 要 测试 的 条 件 。 首 先 ， 大 多 数 机 器 提供 了 一 位 
或 多 位 的 条 件 码 ， 它 作为 某 种 操作 的 结果 被 设置 。 这 些 条 件 码 可 以 想象 成 一 个 用 户 可 见 的 短 寄 
存 器 。 例 如 ， 算 术 运 算 (加 法 、 减 法 等 等 ) 可 能 以 4 种 值 (0、 正 、 负 、 溢 出 ) 来 相应 设置 2 位 
条 件 代 码 。 在 这 样 的 机 器 上 ， 可 能 有 如 下 4 种 不 同 的 条 件 转移 指令 : 

BRPX AREE, WHEE X WEA 

BRNX FARER, WRES X 位 置 

BRZX AARES, MBB X 位 置 

BROX AREARE, WHA X 位 置 
在 所 有 这 些 情况 中 ， 设 置 条件 码 的 操作 结果 指 的 是 最 近 一 次 操作 的 结果 。 

另 一 种 方法 是 在 同一 条 指令 内 完成 比较 和 转移 ， 这 可 用 于 三 地 址 指令 格式 的 指令 。 例 如 : 

BRE R1, R2, X E RI 内 容 = R2 内 容 ， 则 转移 到 X 


图 10-7 给 出 了 这 些 操作 的 例子 。 注 意 ， 转 rn 
移 可 以 是 向 前 〈forward， 具 有 更 高 地 址 的 指 300 指令 
令 )， 也 可 以 是 向 后 (backward， 较 低地 址 ) 。 202 mai 
例子 中 显示 了 无 条 件 和 条 件 分 支 指令 能 用 来 产 无 条 件 分 支 : ; 
生 一 个 重复 的 指令 循环 。 位置 202 到 210 的 指 | ne a 
令 将 重复 执行 ， 直 到 X 减 站 的 结果 是 0。 ao o> 
2. 跳 步 指令 
另 一 类 常用 的 控制 转移 指令 是 跳 步 (Skip) ce 
指令 。 跳 步 指令 包括 一 个 隐 含 地 址 。 一 般 ， 跳 oo ate 


步 是 指 下 一 指令 将 被 跳 过 ;于 是 ， 隐 含 地 址 等 
于 下 一 指令 地 址 加 上 该 指令 长 度 之 和 。 107 分 支 指令 
因为 跳 步 指令 不 要 求 目标 地 址 字段 ， 所 以 做 其 他 事情 更 有 自由 。 一 个 典型 的 例子 是 “加 1 
并 且 车 为 0 则 跳 步 ”( inerement-and-skip-if-zero，ISZ) 指令 。 考 虑 如 下 的 程序 片段 : 
301 


309 ISZ R1 
310 BR 301 
311 
在 这 个 程序 片段 中 ， 使 用 了 两 条 控制 转移 指令 来 实现 一 个 重复 循环 。 初 始 时 R 设置 成 欲 重 
复 次 数 的 负数 。 在 循环 终端 ，R1 被 加 1。 若 它 不 是 0， 则 程序 向 后 转移 到 循环 开始 处 ， 循 环 体 再 
次 被 执行 。 否 则 ， 此 转移 指令 被 跳 过 ， 接 续 执 行 循环 之 后 的 指令 。 
3. 过 程 调用 指令 
在 编程 语言 的 发 展 历程 中 ， 也 许 最 重要 的 革新 就 是 过 程 (Procedure) 了 。 过 程 是 一 个 自 包 含 
(self-contained) 的 计算 机 程序 ， 能 被 并 人 到 一 个 大 的 程序 中 。 可 在 程序 的 任 一 点 上 激活 或 调用 过 
程 ， 即 在 那 一 点 上 ， 处 理 器 被 指示 转 到 过 程 起 始 处 ， 执 行 完整 个 过 程 ， 然 后 再 返回 到 调用 发 生 点 。 
使 用 过 程 的 两 个 基本 理由 是 经 济 性 和 模块 化 。 过 程 允许 多 次 使 用 同一 代码 片段 ， 这 能 大 大 


第 10 章 指令 集 : 特征 和 功能 -237 


节省 编程 工作 量 ， 并 且 也 使 系统 的 存储 空间 得 到 最 有 效 的 利用 (程序 必须 被 存储 ) 。 过 程 亦 允许 
大 的 编程 任务 分 解 成 较 小 的 任务 。 这 种 模块 化 方式 极 大 地 减轻 了 编程 任务 。 

过 程 机 制 涉及 两 类 基本 指令 : 由 目前 位 置 转移 到 过 程 的 调用 指令 ; 由 过 程 返回 到 调用 发 生 
位 置 的 返回 指令 。 两 者 都 是 转移 指令 形式 。 

图 10-8a 说 明了 如 何 使 用 过 程 来 构造 程序 。 地 址 主 存 
此 例 中 ， 有 一 个 起 始 位 置 为 4000 的 主 程序 。 这 penen 
个 主 程序 包括 了 一 条 调用 Procl 过 程 的 指令 ， 
Procl 的 起 始 位 置 为 4500。 当 遇 到 这 条 调用 指令 
时 ，CPU 挂 起 主 程序 的 执行 ， 并 由 位 置 4500 处 
取出 下 一 条 指令 ， 开始 Procl 的 执行 。 在 Procl 
内 ， 有 两 次 对 位 于 4800 开始 的 Proc2 的 调用 ， 
每 次 Procl 被 挂 起 而 Proc2 被 执行 。 返 回 ( Re- 
tum) 指令 使 CPU 返回 到 调用 程序 ， 并 接续 执 
行 相应 调用 (Call) 指令 之 后 的 指令 。 图 10-8b 
显示 了 上 述 的 执行 顺序 。 

有 几 点 是 值得 注意 的 : 

(1) 可 从 多 个 位 置 调用 过 程 。 

(2) 过 程 中 能 出 现 过 程 的 调用 ， 并 人 允许 过 i = 
ERE (nesting) 到 任意 深度 。 a) 调用 和 返回 b) 执 行 的 顺序 

(3) 每 一 次 过 程 调用 与 被 调用 程序 中 的 一 图 10-8 HERE 
次 返回 相 匹配 。 

因为 能 从 不 同位 置 点 调用 过 程 ， 所 以 处 理 器 必须 以 某 种 方式 保存 返回 地 址 ， 以 使 返回 能 相 
应 发 生 。 有 三 个 常用 的 保存 返回 地 址 的 位 置 : 寄存 器 、 被 调 过 程 开始 处 、 栈 顶部 。 

考虑 一 条 机 器 语言 指令 CALL X， 它 代表 调用 下 处 的 过 程 。 若 使 用 寄存 器 方法 ， 则 CALL X 
指令 引起 如 下 动作 : 


主 程序 


Procl 





RN«-PC +A 
PCX 

这 里 的 RN 是 用 于 此 目的 的 寄存 器 。PC 是 程序 计数 器 ，A 是 指令 长 度 。 被 调用 的 过 程 需要 
保护 RN 的 内 容 ， 以 便 稍 后 的 返回 使 用 。 

第 二 种 可 能 的 方法 是 将 返回 地 址 存 于 过 程 开 始 处 。 这 种 情况 下 ，CALL X 引起 : 

XPC +A 
PC<X +1 
这 是 很 方便 的 ， 返 回 地 址 被 很 安全 地 保存 。 

前 两 种 方法 都 能 工作 并 已 被 采用 。 这 些 方法 的 唯一 限制 是 使 重信 (reentrant) 过 程 的 使 用 
变 得 复杂 。 重 入 过 程 是 这 样 一 种 过 程 ， 它 准许 几 个 对 它 的 调用 同时 存在 。 递 归 过 程 (自己 调 
用 自己 的 过 程 ) 就 是 使 用 这 一 特征 的 例子 〈 见 附录 再) 。 如 果 重 入 过 程 的 参数 通过 寄存 器 或 内 
存 来 传递 ， 必 须 有 代码 负责 保存 参数 ， 这 样 这 些 寄存 器 和 内 存 空 间 就 可 以 被 其 他 过 程 调用 使 
用 了 。 

一 个 更 通用 更 强 有 力 的 方法 是 使 用 栈 ( 栈 的 定义 见 附录 10A) 。 当 CPU 执行 一 次 调用 时 ， 它 
将 返回 地 址 放 到 栈 上 。 当 它 执 行 一 次 返回 时 ， 它 使 用 栈 上 的 地 址 。 图 10-9 说 明了 栈 的 使 用 。 

过 程 调用 除 需要 提供 返回 地 址 外 ， 经 常 还 需要 传送 参数 。 可 以 使 用 寄存 器 传送 参数 ， 也 可 
以 将 参数 存 人 恰好 在 CALL 指令 之 后 的 存储 器 位 置 中 ; 而 返回 必须 是 返回 到 这 些 参 数 之 后 的 位 置 
上 。 这 两 种 方法 都 有 缺点 。 若 使 用 寄存 器 ， 则 主 调 程序 和 被 调 程序 都 要 小 心 编 写 ， 以 使 寄存 器 恰 
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a) 初始 栈 内 容 b) 在 CALL 9 在 CALL ” d) 返 回 之 后 9) 在 CALL ”返回 之 后 ”g) 返 回 之 后 
Procl 之 后 Proc2 之 后 Proc2 之 后 


图 10-9 实现 图 10-8 RELER 


当地 被 使 用 。 将 参数 存 于 存储 器 的 方法 ， 会 使 传递 可 变数 量 的 参数 变 得 很 困难 。 而 且 这 两 种 方法 
都 妨碍 了 可 重信 过程 的 使 用 。 

参数 传送 更 灵活 的 方法 是 使 用 栈 。 当 处 理 器 执行 一 次 调用 时 ， 它 不 仅 把 返回 地 址 压 人 栈 ， 而 
且 把 将 要 传送 给 被 调 过 程 的 参数 也 压 人 栈 中 。 被 调 过 程 能 由 栈 存 取 参 数 。 返 回 时 ， 返 回 参数 也 能 
放 到 栈 中 。 为 过 程 调 用 而 存储 的 ， 包 括 返回 地 址 和 全 部 参数 的 栈 内 容 称 为 栈 帧 (stack frame) 。 

图 10-10 提供 了 一 个 例子 。 此 例 有 两 个 子 过 程 P 和 Q， 主 程序 调用 过 程 P 时 向 其 提供 了 两 个 
局 部 变量 xl 和 *2,P 过程 又 调用 Q 并 向 Q 过 程 提供 了 局 部 变量 y1 和 好。 在 此 图 中 ,返回 点 是 存 
于 相应 栈 帧 的 第 一 项 ， 接 着 存储 的 是 指向 先前 栈 帧 起 点 的 指针 。 如 果 压 人 栈 的 参数 长 度 或 数目 
是 可 变 的 ， 那 么 保存 指向 先前 栈 帧 起 点 的 指针 是 必要 的 。 






< 一 一 栈 指针 


旧 的 帧 指针 z 
旧 的 帧 指针 


a) 调 用 P b)P 又 调用 Q 
图 10-10 示例 过 程 了 和 Q 的 栈 帧 增长 
10.5 Intel x86 和 ARM 操作 类 型 


10.5.1 x86 操作 类 型 

x86 提供 了 一 cette 的 操作 类 型 ， 包 括 几 种 特殊 的 指令 ， 其 目的 是 为 程序 员 提供 一 种 强 有 
力 的 工具 ， 以 便 将 高 级 语言 程序 翻译 成 优化 的 机 器 语言 程序 。 表 10.8 列 出 这 些 类 型 并 予以 简要 
说 明 。 这 些 指令 的 大 多 数 也 是 能 在 其 他 机 器 指令 集中 找到 的 常规 指令 ， 但 有 几 种 指令 类 型 是 为 
x86 体系 结构 精心 设计 的 ， 很 值得 考察 。 [CART06] 的 附录 A 列 出 了 各 种 x86 指令 ， 以 及 每 条 指 
令 的 操作 数 和 指令 的 执行 对 条 件 码 的 影响 。NASM 汇编 语言 手册 的 附录 B 提供 了 每 条 x86 指令 较 
详细 的 描述 。 这 两 个 参考 文档 都 在 本 书 网 站 上 可 查 到 。 
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3210-8 x86 操作 类 型 (附带 典型 操作 示例 ) 




















说 明 
在 寄存 器 之 间或 寄存 器 与 存储 器 之 间 传 送 操作 数 
将 操作 数 压 入 楼 

将 所 有 寄存 器 的 内 容 压 和 楼 


传送 字 节 、 字 、 双 字 ; 符号 被 扩展 。 字 节 传 送 到 字 或 字 传送 到 双 字 ， 以 2 
的 补 码 符号 扩展 方式 进行 


装 人 有 效 地 址 。 将 源 操作 数 的 偏 移 量 而 不 是 它 的 值 装 到 目标 操作 数 


表 查 找 翻 译 。 以 用 户 编 制 的 翻译 表 的 一 字 节 替代 AL 中 的 字 节 。 当 XLAT 执行 
RY, AL 中 应 有 表 的 无 符号 数 的 索引 值 。XLAT 以 被 索引 项 的 内 容 替 代 AL 的 内 容 
由 V0 空间 输入 ， 或 输出 到 IO 空间 
加 操作 数 
减 操作 数 
无 符号 整数 乖 法 ， 操 作 数 是 字 节 、 字 或 双 字 ， 结 果 是 字 、 双 字 或 四 字 

















数据 传送 




















算术 




























































































有 符号 数 除法 
AND 逻辑 与 操作 数 
p | 位 测试 和 置 位 ， 对 位 字段 GR) 操作 数 进行 操作 。 指 令 将 一 位 当前 值 复制 
i 到 CF 标志 ， 并 设置 原来 位 为 1 
oe 位 向 前 扫描 。 扫 描 一 个 字 或 双 字 ， 当 发 现 第 一 个 1 时 ， 将 该 位 对 应 的 位 号 
保存 到 一 个 寄存 器 
SHL/SHR 左 或 右 的 逻辑 移 位 
SAL/SAR 左 或 右 的 算术 移 位 
逻辑 ROL/ROR 左 或 右 的 循环 移 位 
SETec 根据 状态 标志 定义 的 16 个 条 件 的 某 一 个 ， 设 置 一 字 节 为 0 或 1 
JMP 无 条 件 转移 
CALL 转移 控制 到 另 一 位 置 。 在 转移 之 前 ， 此 CALL 指令 之 后 的 指令 地 址 压 人 栈 
— JE/IZ 若 相等 /为 0 则 跳 转 
若 相 等 /为 0 则 循环 。 这 是 一 个 使 用 ECX 值 的 条 件 跳 转 指令 。 指 令 先 递减 
LOOPE/LOOPZ | ECX， 然 后 为 转移 条 件 测试 ECX (fi 
INT/INTO 中 断 / 若 上 滋 则 中 断 。 转 移 控制 到 一 个 中 断 服务 子 程序 
传送 字 节 、 字 或 双 字 的 字符 串 。 它 对 由 ESI 和 EDI 索引 的 字符 串 元 素 进行 
MOVS 操作 ， 每 次 字符 串 操作 之 后 ， 这 两 个 寄存 器 自动 被 递增 或 递减 以 指向 下 一 个 
字符 串 操作 ERRER 
LODS 装 人 字 节 、 字 或 双 字 的 字符 串 
创建 一 个 能 用 来 实现 块 结构 化 (block-structured) 高 级 语言 规则 的 栈 帧 
上 述 ENTER 动作 的 逆 动 作 
高 级 语言 支持 检查 数组 边界 。 验 证 第 一 个 操作 数 是 否 在 一 个 上 下 限 范围 之 内 ， 此 上 下 限 
BOUND 值 存 于 被 第 二 个 操作 数 所 引用 的 两 个 相 邻 存储 器 中 。 若 值 不 在 边界 内 ， 产 生 
中 断 。 此 指令 用 来 检查 数组 索引 是 否 越界 
有 STC 置 位 进位 标志 
LAHF 将 标志 装 入 A 寄存 器 。 复 制 SF, ZF, AF, PF 和 CF 位 到 A 寄存 器 
DS 一 个 
ance ià | nn 段 寄 存 器 和 另 一 个 寄存 器 
HLT | “暂停 








系统 控制 对 共享 存储 器 提出 加 锁 要 求 ， 这 样 在 立即 跟随 LOCK 之 后 的 那 条 指令 期 间 ， 
处 理 器 可 独占 式 地 使 用 共享 存储 器 
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( 续 ) 
指令 说 明 
| BSC | 处 理 器 扩展 换 码 。 此 换 码 指示 后 面 的 指令 ， 将 在 支持 高 精度 整数 和 浮 点 数 计 
算 的 数字 协 处 理 器 上 执行 
系统 控制 
| WAIT 等 待 ， 直 到 BUSY# 信 和 号 撤除 。 挂 起 处 理 器 当前 执行 的 程序 ， 直 到 处 理 器 已 
测 出 BUSY 引 脚 信号 无 效 ， 这 表明 数字 协 处 理 器 已 执行 结束 































保存 全 局 描述 符 表 
保护 装 人 段 限 。 将 段 限 装 和 一 个 用 户 指定 的 寄存 器 中 
VERR/VERW 验证 段 可 被 读 / 写 
INVD 清空 内 部 高 速 缓存 
高 速 缓存 管理 | WBINVD 在 将 已 修改 的 行 写 回 存储 器 之 后 ， 清 空 内 部 高 速 缓存 








使 一 个 页 表 高 速 缓存 (Translation Lookaside Buffer, TLB) 项 无 效 


1. 调用 /返回 指令 

x86 为 支持 过 程 调用 /返回 提供 了 4 条 指令 : CALL、ENTER、LEAVE、RETURN。 考 察 这 些 
指令 所 提供 的 支持 是 有 指导 意义 的 。 回 想 图 10-10 ， 实 现 过 程 调用 /返回 机 制 的 普遍 方式 是 使 用 栈 
帧 。 当 调用 一 个 新 过 程 时 ， 在 进入 新 过 程 之 前 必须 完成 如 下 步骤 ; 

© 将 返回 点 压 和 人 栈 。 

o 将 当前 帧 指针 (frame pointer) EARR 

o 将 栈 指针 拷贝 到 帧 指针 作为 新 的 帧 指针 值 。 

。 调整 栈 指针 以 分 配 帧 。 

CALL 指令 将 当前 指令 指针 值 压 入 栈 ， 并 且 通 过 将 过 程 人 口 地 址 放 人 指令 指针 ， 引 起 控制 转 
移 到 过 程 和 人口 。 在 8088 和 8086 机 器 中 ， 上 典型 的 过 程 开 始 处 有 如 下 指令 序列 : 


PUSH EBP 
MOV EBP,ESP 
SUB ESP,space-for-locals 


这 里 的 EBP 是 帧 指针 ，ESP 是 栈 指 针 。 在 80286 及 其 后 的 机 器 中 ，ENTER 指令 以 一 条 单独 
的 指令 完成 上 述 全 部 操作 。 

ENTER 指令 加 入 到 指令 集中 为 编译 程序 提供 了 直接 的 支持 。 这 条 指令 也 能 支持 像 Pascal、 
COBOL 和 Ada 语言 中 (C 和 FORTRAN PRAM) WREE (nested procedure ) 。 不 过 后 来 发 
现 ， 对 这 些 语 言 ， 有 其 他 更 好 的 方式 来 处 理 骨 套 过 程 调用 。 另 外 ， 虽 然 ENTER 指令 (4 字 节 ) 
+j PUSH, MOV, SUB 指令 序列 (6 字 节 ) 相 比 节省 了 存储 器 少数 几 个 字 节 ， 但 它 实 际 要 使 用 更 
长 的 时 间 来 执行 (10 个 时 钟 周期 与 6 个 时 钟 周期 相 比 ) 。 于 是 ， 加 入 ENTER 指令 对 指令 集 设计 
者 来 说 ， 看 起 来 是 一 个 好 想法 ， 但 它 使 处 理 器 的 实现 变 得 复杂 ， 而 带 来 很 少 或 没什么 好 处 。 我 们 
将 看 到 ， 与 之 对 比 ， 处 理 器 设计 的 RISC 方法 会 避免 像 ENTER 这 样 的 复杂 指令 ， 而 以 更 简单 指令 
序列 来 做 到 更 有 效 的 实现 。 

2. 存储 管理 

另 一 类 指令 专门 用 来 与 存储 器 分 段 打交道 。 这 些 是 特权 指令 ， 仅 能 由 操作 系统 来 使 用 。 它 们 
允许 局 部 或 全 局 段 表 (叫做 描述 符 表 ) 被 装 人 和 读 取 ， 并 可 检查 和 更 改 段 的 优先 级 别 。 

与 片 内 高 速 缓存 打交道 的 专门 指令 已 在 第 4 章 讨 论 过 。 

3. 状态 标志 和 条 件 码 

状态 标志 (status flag) 是 专门 寄存 器 中 的 位 ， 它 可 被 特定 操作 所 设置 并 用 于 条 件 转移 指令 。 
条 件 码 (condition code) 指 的 是 一 个 或 多 个 状态 标志 的 设置 。 在 x86 和 很 多 其 他 的 体系 结构 中 ， 
状态 标志 由 算术 和 比较 操作 设置 。 在 大 多 数 语言 中 ， 比 较 操作 使 两 个 操作 数 相 减 ， 与 减法 操作 一 


第 10 章 指令 集 : 特征 和 功能 . 241 


样 ; 但 不 同 的 是 ， 比 较 操 作 只 设置 条 件 码 ， 而 减法 操作 还 要 将 结果 存 人 目标 操作 数 中 。 
K 10-9 列 出 了 用 于 x86 的 状态 标志 。 每 个 状态 标志 或 这 些 状态 标志 的 组 合 可 为 条 件 转移 所 
测试 。 表 10-10 列 出 了 条 件 转移 操作 码 所 定义 的 条 件 码 〈 状 态 标志 值 的 组 合 ) 。 


表 10-9 x86 状态 标志 














在 算术 运算 之 后 ， 此 位 为 1 指出 在 最 左 位 位 置 有 向 上 的 进位 或 借 位 。 某 些 移 位 或 
循环 移 位 操作 亦 修 改进 位 位 


一 个 算术 或 逻辑 操作 结果 的 奇偶 性 。1 指示 偶 ，0 指示 奇 


8 位 算术 或 逻辑 运算 后 ， 它 指示 半 字 节 之 间 的 进位 或 借 位 。 用 于 二 进 制 编码 的 十 
进 制 数 的 算术 中 


指示 算术 或 逻辑 运算 结果 是 0 
指示 算术 或 逻辑 运算 结果 的 符号 
指示 2 的 补 码 加 法 或 减法 之 后 的 算术 溢出 






























表 10-10 x86 中 条 件 转移 和 SETcc 指令 使 用 的 条 件 码 






























































符号 测试 的 条 件 注 # 

A, NBE C=0 AND Z=0 高 于 ; 不 低 于 或 等 于 (大 于 ,无 符号 ) 
高 于 或 等 于 ; 不 低 于 (大 于 或 等 于 ， 无 符号 ) ; 

AE, NB, NC | C=0 无 进位 

ča B 不 高 于 或 等 于 ODF, KAS); 进位 

BE，NA C=1 ORZ=1 低 于 或 等 于 ; 不 高 于 (小 于 或 等 于 ,无 符号 ) 

E, Z Z=1 等 于 ; AS (无 符号 或 有 符号 ) 

[(S=1 AND 0=1)OR(S=0 and 0=0)] 

G, NLE AND [Z=0] 大 于 、 不 小 于 或 等 于 (有 符号 ) 

GE，NL (S=1 AND 0=1)OR(S=0 AND 0=0) 大 于 或 等 于 ; 不 小 于 (有 符号 ) 

L, NGE (S=1 AND 0=0)OR(S=0 AND 0=1) 小 于 ; 不 大 于 或 等 于 (有 符号 ) 

LE, NG 小 于 或 等 于 ,不 大 于 (有 符号 ) 

NE, NZ 不 等 于 、 不 为 零 (无 符号 或 有 符号 ) 

NO 无 溢出 

NS 符号 表示 复位 (BAK) 

NP, PO 


奇偶 标志 复位 (奇偶 为 奇 ) 
溢出 

奇偶 标志 置 位 (奇偶 为 偶 ) 
符号 标志 置 位 (为 负 ) 























对 于 此 表 有 几 个 需要 注意 的 地 方 。 首 先 ， 我 们 可 能 想 测试 两 个 操作 数 ， 以 确定 一 个 是 否 比 另 
一 个 更 大 些 。 但 这 取决 于 数 是 无 符号 还 是 有 符号 数 。 例 如 ，8 位 数 11111111 大 于 00000000 是 在 
把 它们 看 成 是 无 符号 数 时 才 成 立 (255 >0) ， 若 把 它们 看 成 是 补 码 数 则 前 者 小 于 后 者 ( -1 <0)。 
于 是 ， 多 数 汇编 语言 都 是 引入 两 组 术语 来 区 别 这 两 种 情况 : 若 我 们 比较 的 是 作为 有 符号 整数 的 
两 个 数 ， 则 使 用 小 于 (less than) 和 大 于 (greater than) 术语 ; 若 作 为 无 符号 整数 来 比较 ， 则 使 
用 低 于 (below) 和 高 于 (above) 术语 。 

第 二 个 需 关 注 的 是 比较 有 符号 整数 的 复杂 性 。 如 果 (1) 符号 位 为 0 MARA Lie (S =0 
AND 0 =0) ， 结 果 是 大 于 或 等 于 0; 或 者 (2) 符号 位 是 1 但 有 上 溢 (S=1 AND 0 =1)。 研 究 一 
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下 图 9-4 应 该 会 使 你 确信 ， 为 各 种 带 符号 操作 所 测试 的 条 件 是 合适 的 。 

4. x86 SIMD 指令 

1996 年 ，Intel 开始 将 MMX 技术 引 人 Pentium 产品 系列 。MMX 是 一 组 用 于 多 媒体 任务 的 优化 
指令 ， 共 有 57 条 新 指令 。 这 些 新 指令 以 一 种 SIMD (single-instruction-multiple-data， 单 指令 多 数 
E) 方式 来 处 理 数据 。 于 是 ， 它 能 一 次 在 多 个 数据 元 素 上 同时 完成 加 、 乘 这 样 的 运算 。 一 般 ， 
每 条 指令 执行 只 用 一 个 时 钟 周期 。 对 于 合适 的 应 用 ， 与 不 使 用 MMX 指令 相 比 ， 这 些 快 速 的 并 行 
操作 能 产生 2 ~8 倍 的 加 速效 果 [ATKI96 ] 。 随 着 x86 体系 结构 推出 64 位 的 处 理 器 ，Intel 也 扩展 
了 这 些 指令 ,使 它们 能 处 理 双 四 字 (128 位 ) 操作 数 和 浮 点 运算 。 在 本 小 节 中 ,我 们 将 介绍 
MMX 的 特点 。 

MMX 主要 是 为 多 媒体 程序 设计 而 设置 的 。 常 规 的 指令 是 面向 32 位 和 64 位 数据 操作 的 ， 而 
视频 和 音频 数据 一 般 是 由 8 位 或 16 位 这 样 小 的 数据 类 型 构成 的 大 的 阵列 。 例 如 ， 在 图 形 或 图 像 
中 ， 每 一 屏 都 是 由 像素 (pixel) ”点 所 组 成 ， 每 个 像素 ， 或 者 每 个 像素 的 每 个 颜色 分 量 ( 红 、 绿 、 
蓝 ) 都 由 8 位 数据 表示 。 声 音 采样 一 般 量 化 成 16 位 数据 。 对 于 某 些 3D 图 形 ， 基 本 数据 类 型 为 
32 位 是 普遍 的 情况 。 为 对 这 些 长 度 的 数据 提供 并 行 操作 的 方便 ，MMX 中 定义 了 3 种 新 数据 类 
型 。 每 种 数据 类 型 都 是 64 位 长 ， 由 多 个 小 的 定点 整数 字段 所 组 成 。 这 3 种 新 类 型 是 : 

。 压缩 字 节 型 : 8 个 字 节 打包 成 一 个 64 位 长 的 数据 。 

e 压缩 字 型 : 4 个 字 打 包 成 一 个 64 位 长 的 数据 。 

。 压缩 双 字 型 : 2 个 32 位 的 双 字 打包 成 一 个 64 位 长 的 数据 。 

# 10-11 列 出 了 MMX 指令 集 ， 其 中 大 多 数 指 令 涉及 字 节 、 字 、 双 字 上 的 并 行 操作 。 例 如 ， 
PSLLW 指令 完成 压缩 字 型 每 个 字 的 逻辑 左 移 ，PADDB 指令 以 两 个 压缩 字 节 型 数据 为 输入 ， 对 它 
们 进行 字 节 对 字 节 加 法 ， 输 出 一 个 压缩 字 节 型 数据 。 


表 10-11 Pentium MMX 指令 集 
































种 类 指令 说 明 
| PADD[ B,W,D] 并 行 完成 [ 字 节 、 字 、 双 字 ] 的 环绕 (wraparound) 加 法 

PADDS[ B,W] 饱和 带 符号 加 法 
PADDUS[ B,W] 饱和 无 符号 加 法 
PSUB[B,W,D] 环绕 减法 

算术 PSUBS[ B, W] 饱和 带 符号 减法 
PSUBUS[ B, W] 饱和 无 符号 减法 
PMULHW 并 行 完 成 16 位 有 符号 字 的 乘法 ， 选 取 32 位 结果 的 高 序 16 位 













PMULLW 并 行 完成 16 位 有 符号 字 的 乘法 ， 选 取 32 位 结果 的 低 序 16 位 
PMADDWD 并 行 完成 16 位 有 符号 字 的 乘法 ， 两 对 相 邻 32 位 结果 再 相 加 比较 
并 行 完成 等 于 比较 ; 以 全 “1” 表 示 真 ， 以 全 “0” 表 示 假 








PCMPEQ[B,W,D] 














比较 
PCMPCT[B,W,D] 并 行 完 成 大 于 比较 ; 以 全 “1” 表 示 真 ， 以 全 “0” 表 示 假 
| PACKUSWB 压缩 字 到 字 节 (饱和 无 符号 ) 
PACKSS[ WB ,BW ] 压缩 字 到 字 节 或 双 字 到 字 (饱和 有 符号 ) 








PUNPCKH[ BW, WD,DQ] 





从 MMX 寄存 器 解压 缩 (交叉 ) 高 序 字 节 、 字 、 双 字 
从 MMX 寄存 器 解压 缩 EL) 低 序 字 节 、 字 、 双 字 





PUNPCKL[BW,WD,DO] 








O 像素 是 能 被 指定 一 定 灰 度 的 数字 图 像 的 最 小 元 素 ; 它 也 等 效 于 点 阵 图 形 表 示 中 的 像 点 。 
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( 续 ) 
种 类 指令 说 明 
PAND 64 位 按 位 与 
| PNDN 64 位 按 位 与 非 
POR 64 位 按 位 或 
PXOR | 64 位 按 位 异 或 
并 行 逻辑 左 移 [ 字 、 双 字 、 四 字 ] ， 移 位 量 由 MMX 寄存 器 的 值 
ee 或 立即 数 指定 
并 行 ; Z, RWF., WF], A MMX 寄存 器 的 
移 位 PSRL[ W,D,0] Beslan [ 字 、 双 字 、 四 字 ] ， 移 位 量 由 寄存 器 的 值 
并 行 算术 右 移 【 字 、 双 字 、 四 字 ] ， 移 位 量 由 MMX 寄存 器 的 值 







Sb 或 立即 数 指定 


移入 或 移出 MMX 寄存 器 [ 双 字 、 四 字 ] 
清除 MMX 状态 (清除 FP 寄存 器 的 标记 位 ) 

注 : 若 一 条 指令 支持 多 种 数据 类 型 [ 字 节 (B)、 字 〈(W)、 双 字 (D)、 四 字 (Q)]， 则 数据 类 型 由 方 括号 中 字母 

指出 。 

新 指令 的 突出 特性 是 对 字 节 或 16 位 字 操 作 数 ， 引 入 了 饱和 算术 (saturation arithmetic)。 在 
通常 的 无 符号 算术 中 ， 当 运算 出 现 上 溢 时 ( 即 最 高 有 效 位 有 向 上 进位 ) ， 则 此 额外 位 被 舍 掉 。 这 
称 为 环绕 (wraparound) 运算 ， 因 为 从 效果 上 看 ， 侈 掉 进 位 使 两 个 数 加 法 之 和 会 小 于 被 加 的 两 个 
数 。 例 如 ， 考 虑 两 个 十 六 进位 制 数 F000h 和 3000h 相 加 ， 则 和 能 表示 成 : 

FOO0h = 1111 0000 0000 0000 
+ 3000h =0011 0000 0000 0000 
10010 0000 0000 0000 = 2000h 

若 这些 数 表示 图 像 像 素 的 亮度 〈 数 值 越 大 越 亮 ) ， 则 两 个 亮点 的 组 合 反而 产生 一 个 暗 点 ， 显 
然 这 不 是 所 预期 的 。 在 饱和 算术 中 ， 如 果 加 法 导致 上 溢 ， 减 法 导致 下 溢 ， 那 么 结果 分 别 被 设置 成 
可 表示 的 最 大 值 或 最 小 值 。 对 上 面 这 个 例子 ,使 用 饱和 算术 则 有 : 

F000h = 1111 0000 0000 0000 
+ 3000h =0011 0000 0000 0000 
10010 0000 0000 0000 

1111 1111 1111 1111 = FFFFh 

为 感受 一 下 使 用 MMX 指令 的 好 处 ， 让 我 们 考察 一 个 选 自 [PELE97] 的 例子 。 一 般 视 频 应 
用 程序 常 提供 淡出 、 淡 入 效果 ， 即 一 屏 图 像 逐 渐 溶解 成 男 一 屏 图 像 。 两 个 图 像 以 一 种 加 权 平 均 


组 合 : 








数据 传送 MOV [D, Q] 
EMMS 














Result_pixel = A_pixel x fade + B_pixel x (1 — fade) 
对 A、B 两 图 像 的 每 个 像素 位 置 进 行 上 述 计算 。 当 fade 值 由 1 逐渐 变 为 0 (可 用 相应 的 8 位 
整数 分 成 255 阶 ) ， 则 产生 一 系列 的 图 像 帧 ， 实 现 了 由 A 图 像 淡 化 到 图 像 B 的 效果 。 
图 10-11 表示 一 组 像素 所 需 的 步骤 序列 。8 位 像素 分 量 被 转换 成 16 位 元 素 以 适应 MMX 
的 16 位 乘法 指令 。 若 这 些 图 像 使 用 640 x 480 分 辩 率 ,溶解 技 术 使 用 全 部 的 255 个 阶 值 ， 


则 使 用 MMX Rie 5.35 亿 条 指令 ， 而 不 使 用 MMX 却 要 14 亿 条 指令 才能 完成 同样 的 计算 
[INTE98b] 。 
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(1) 解压 缩 图 像 A 和 图 像 B 
中 的 红 R) 像素 分 量 
字 节 到 字 


(2) 图 像 A 减 图 像 B 


(3) 结果 乘 以 fade 阶 值 


(4) 加 上 图 像 B 像 素 





(5) 将 合成 的 新 像素 紧缩 到 字 节 


完成 这 个 运算 的 MMX 指令 序列 : 


pxor mm7, mm7 :将 mm7 寄 存 器 清除 为 全 0 

movq mm3, fad_val ;将 4 个 同 值 的 fade 阶 值 装 入 mm3 寄 存 器 
movd mm0, imageA ;将 图 像 A 的 4 个 红 像 素 分 量 装 入 mm0 寄 存 器 
movd mml, imageB ;将 图 像 B 的 4 个 红 像 素 分 量 装 入 mm1 寄 存 器 
punpckblw mm0, mm7 ”将 像素 分 量 由 字 节 解压 缩 到 16 位 
punpckblw mml, mm7 将 像素 分 量 由 字 节 解压 缩 到 16 位 

psubw mm0, mm1 ;图 像 A 减 图 像 B 


pmulhw mm0, mm3 ; 差 值 乘 以 阶 值 
padddw mm0, mm1 


: 积 值 加 上 图 像 B 
packuswb mm0, mm7 ;压缩 到 16 位 到 字 节 
图 10-11 颜色 平面 表示 法 的 图 像 合 成 [ PELE97 | 


10.5.2 ARM 操作 类 型 


ARM 提供 了 大 量 的 操作 类 型 。 主 要 的 类 型 如 下 所 列 : 

e 装载 和 保存 指令 : EARM 体系 结构 中 ， 只 有 装载 (Load) 和 保存 (Store) 指令 能 访问 内 
存 ， 算 术 和 逻辑 指令 只 对 寄存 器 和 指令 中 的 立即 数 进 行 操作 。 这 一 限制 是 精简 指令 集 计 
FPL (RISC) 的 设计 特征 。 在 第 13 章 我 们 将 进一步 探讨 这 点 。ARM 体系 结构 支持 两 大 
类 装载 和 保存 指令 ， 一 种 转载 和 保存 单个 寄存 器 数据 到 内 存 ， 另 一 种 装载 和 保存 一 对 寄 
存 器 的 数据 到 内 存 : (1) 装载 或 保存 一 个 32 位 字 或 一 个 8 位 无 符号 字 节 ; (2) 装载 或 保 
存 一 个 16 位 无 符号 半 字 ， 同 时 装载 并 符号 扩展 一 个 16 位 的 半 字 或 一 个 8 位 字 节 。 

© 分 支 指令 : ARM 支持 分 支 指令 ， 人 允许 条 件 分 支 指令 向 前 或 向 后 跳 转 最 多 32MB。 由 于 程 
序 计 数 器 使 用 了 通用 寄存 器 R15， 直 接 改 写 R15 的 值 也 可 以 产生 分 支 或 跳 转 。 子 程序 调 
用 是 通过 修改 标准 的 分 支 指 令 来 实现 。 因 为 可 以 向 前 或 向 后 跳 转 32MB 的 距离 ， 分 支 链 
接 (Branch and Link, BL) 指令 把 本 指令 的 后 继 指令 地 址 (返回 地 址 ) 保存 到 LR 
(R14) 寄存 器 。 分 支 的 确定 是 通过 指令 中 的 4 位 条 件 码 字段 完成 的 。 

。 数据 处 理 指 令 : 这 一 类 指令 包括 逻辑 指令 (AND, OR, XOR), ， 加 法 和 减法 指令 ， 以 及 
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测试 和 比较 指令 。 

© 乘法 指令 : 整数 乘法 指令 对 字 或 半 字 操作 数 进行 计算 ， 并 产生 普通 或 较 长 的 结果 。 例 如 ， 
以 32 位 操作 数 为 输入 ,产生 64 位 结果 的 乘法 指令 。 

e 并 行 加 法 和 减法 指令 : 除了 普通 的 数据 处 理 和 乘法 指令 外 ， 还 有 一 组 并 行 加 法 和 减法 指 
令 ， 其 中 指令 两 个 操作 数 的 对 应 部 分 同时 进行 运算 。 例 如 ，ADD16 把 两 个 寄存 器 的 上 半 
字 相 加 ， 产 生 结果 的 上 半 字 ， 同 时 把 这 两 个 寄存 器 的 下 半 字 相 加 ， 产 生 结 果 的 下 半 字 。 
这 些 指令 类 似 于 x86 的 MMX 指令 ， 对 于 图 像 处 理应 用 很 有 用 。 

PRBS: 这 是 用 于 解压 缩 数据 的 指令 ,它们 通过 符号 扩展 或 填 零 扩展 的 方式 ， 把 字 节 

扩展 为 半 字 或 字 ， 把 半 字 扩展 为 字 。 

。 状态 寄存 器 存 取 指令 : ARM 提供 了 读 写 状态 寄存 器 中 特定 位 的 指令 。 

条 件 码 ( Condition Code ) 

ARM 体系 结构 定义 了 4 个 条 件 标 志 (condition flag) ， 这 些 标志 保存 在 程序 状态 寄存 器 中 : 
N, Z, C 和 V ( 负 标 志 ， 零 标志 ， 进 位 标志 和 溢出 标志 ) ， 其 含义 与 x86 中 的 S, Z, CMV 标志 一 
样 。 这 4 个 标志 的 值 构 成 了 ARM 处 理 器 的 条 件 码 。 表 10-12 显示 了 条 件 执行 所 依赖 的 条 件 组 合 。 

ARM 中 使 用 条 件 码 有 两 个 不 同 寻常 之 处 : 

(1) 所 有 的 指令 ， 不 仅仅 是 分 支 指令 ， 都 有 条 件 码 字 段 。 这 意味 着 所 有 的 指令 都 可 以 根据 
条 件 决 定 是 否 执行 。 实 际 上 ,除了 1110 和 1111 这 两 个 条 件 标志 的 组 合 以 外 ， 甚 他 任何 指令 条 件 
码 字段 的 条 件 标志 组 合 都 意味 着 ， 该 指令 仅 当 条 件 满足 时 才能 执行 。 

(2) 所 有 的 数据 处 理 指 令 (AR, BH) 都 包含 一 个 $ 位 ， 指 出 该 指令 是 否 会 修改 条 件 
示 志 。 

按 条 件 执行 以 及 条 件 标志 设置 控制 ， 有 利于 设计 更 短 的 程序 ， 从 而 占用 更 少 的 内 存 。 另 一 方 
面 ， 由 于 所 有 指令 都 带 4 位 的 条 件 码 字段 ， 这 意味 着 32 位 指令 的 操作 码 和 操作 数字 段 的 可 用 位 
数 就 少 了 。 不 过 ARM 是 一 种 RISC 方式 设计 的 处 理 器 ， 更 多 地 使 用 寄存 器 寻 址 ， 因 此 条 件 码 的 开 
销 应 该 是 可 接受 的 。 


> 


表 10-12 ARM 指令 条 件 执行 的 条 件 码 












































































被 测试 的 条 件 标志 
0000 EQ Z=1 相等 
Z=0 不 相等 
C=1 进位 设置 /无 符号 大 于 或 等 于 
| c=0 进位 清除 /无 符号 小 于 
0100 MI N=1 -/% 
0101 PL | N=0 +/ 正 或 零 
0110 VS V=1 溢出 
i 
0111 VC V=0 无 溢出 
1000 HI C=1 ANDZ=0 无 符号 大 于 
1001 LS C=0 ORZ=1 无 符号 小 于 或 等 于 
i aa 
N =V 
1010 GE [(N=1 ANDV=1) OR 有 符号 大 于 或 等 于 
(N=0 ANDV=0)] 
N4V 
1011 LT [(N=1 AND V=0) OR 有 符号 小 于 
(N=0 ANDV=1)] 
1100 GT (Z=0) AND (N=V) 有 符号 大 于 
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( 续 ) 





被 测试 的 条 件 标 志 说 明 
(Z=1) OR (N¥V) 有 符号 小 于 或 等 于 
1110 | AL 一 总 是 〈 无 条 件 ) 




















该 指令 只 能 无 条 件 执行 





10.6 ”推荐 的 读物 
[BREY03] 全 面 介绍 了 x86 指令 集 ，ARM 指令 集 的 介绍 在 [SLOS04] 和 [KNAGO4] 中 。[ INTE04b] 
介绍 了 与 微 处 理 器 端 序 结构 有 关 的 软件 设计 考虑 ， 并 讨论 了 开发 端 序 无 关 代码 的 一 些 准则 。 





10.7 关键 词 、 思 考题 和 习题 


关键 词 

accumulator; 累加 器 operand; 操作 数 

address: 地 址 operation: 操作 ， 运 算 

arithmetic shift; 算术 移 位 packed decimal; 压缩 的 十 进 制 数 
bi-endian， 双 端 pop: 出 栈 

big endian; Ki procedure call; 过 程 调 用 

branch; 分 支 procedure return; 过 程 返回 
conditional branch; 条 件 分 支 push: AFR 

instruction set: 指令 集 reentrant procedure; 可 重信 过 程 
jump: 跳 转 reverse Polish notation: 逆 波 兰 表示 法 
little endian ， 小 端 rotate: 循环 移 位 ， 旋 转 

logical shift; 逻辑 移 位 skip; 跳 步 

machine instruction ， 机 器 指令 stack: 栈 

思考 题 

10.1 机 器 指令 的 典型 元 素 是 什么 ? 


10.2 什么 类 型 的 位 置 能 保存 源 和 目的 操作 数 ? 


1 
2 
10.3 EH OUA 4 San, FES HEA RETF A? 
10.4 列 出 并 简要 介绍 指令 集 设 计 的 5 个 重要 问题 。 
10.5 在 机 器 指令 集 内 ， 典 型 的 操作 数 类 型 是 什么 ? 
10.6 压缩 十 进 制 表示 法 与 IRA 字符 代码 之 间 的 关系 是 什么 ? 
10.7 算术 移 位 与 逻辑 移 位 有 何 区 别 ? 
10.8 为 何 需要 控制 转移 指令 ? 

10.9 列 出 并 简要 说 明生 成 〈 将 被 条 件 分 支 指令 测试 的 ) 条 件 的 两 种 常见 方式 。 
10.10 过程 谈 套 (nesting of procedure) 是 何 意思 ? 

10. 11 列 出 为 过 程 返回 保存 返回 地 址 的 三 种 可 能 位 置 。 

10.12 什么 是 可 重 入 过 程 ? 
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10.13 ”汇编 语言 与 机 器 语言 有 何不 同 ? 
10.14 ”什么 是 逆 波 兰 表 示 法 ? 
10.15 ”大 端 与 小 端 有 何不 同 ? 


习题 


10.1 以 十 六 进 制 数 表示 : 
(a) 压缩 十 进 制 数 23 
(b) ASCI 字符 23 
10.2 ”对 如 下 压缩 十 进 制 数 给 出 其 十 进 制 值 : 
(a) 0111 0011 0000 1001 
(b) 0101 1000 0010 
(c) 0100 1010 0110 
10.3 ”车 给 定 的 微 处 理 器 的 字 长 为 一 字 节 ， 则 如 下 表示 法 所 能 表示 的 最 大 和 最 小 整数 各 是 什么 ? 
(a) 无 符号 (b) 符号 - 幅 值 
(c) 1 的 补 码 (d) 2 的 补 码 
(e) 无 符号 压缩 十 进 制 ”(f) 有 符号 压缩 十 进 制 
10.4 ”多 数 CPU 都 提供 对 压缩 十 进 制 数 完成 算术 的 逻辑 电路 。 虽 然 十 进 制 算术 规则 类 似 于 二 进 制 操作 ， 但 
使 用 二 进 制 逻辑 时 ， 十 进 制 结果 的 个 别 数 字 会 需要 做 某 种 修正 。 
考虑 两 个 无 符号 数 的 十 进 制 加 法 。 若 每 个 数 有 N 个 数字 ， 则 每 个 数 有 4N 位 。 两 个 数 相 加 使 用 一 个 二 
进 制 加 法 器 。 请 提出 修正 此 结果 的 简单 规则 ， 并 对 1698 和 1786 这 两 个 数 完成 加 法 运算 。 
10.5 FAHA X K 10 的 补 码 定义 成 10” -X KEW N 是 十 进 制 数字 的 数目 。 请 描述 使 用 10 的 补 码 表示 
法 完成 十 进 制 减法 的 过 程 ， 以 (0736)io 减 (0326)1o 为 例 。 
10.6 以 零 地 址 、 一 地 址 、 二 地 址 、 三 地 址 法 分 别 编写 程序 来 计算 : 
X= (A+BxC)/(D-ExF) 
据 此 对 4 种 地 址 机 制 进行 比较 。4 种 地 址 机 制 可 使 用 的 指令 是 : 






















一 地 址 二 地 址 三 地 址 
PUSH M LOAD M MOVE( X+-Y) MOVE( X<-Y) 
POP M STORE M ADD( Xe—X +Y) ADD( X<-Y +Z) 
ADD ADD M SUB( X«—X - Y) SUB( XY -Z) 
SUB SUB M MUL( X-X x Y) MUL( X<-Y xY) 
MUL MUL M DIV ( X<—X/Y) DIV ( Xe—Y/2Z) 
DIV M 


10.7 考虑 一 个 只 有 两 条 指令 的 假想 计算 机 。n 位 指令 的 第 1 位 用 于 指定 操作 码 ， 其 余 n -1 位 用 于 指定 主 
存 2" -1 个 nn 位 字 的 某 一 个 。 这 两 条 指令 是 : 
SUBS X 累加 器 减 去 位 置 X 处 的 内 容 ， 结 果 存 人 累加 器 和 位 置 X 处 。 
JUMP X 将 地 址 X 放 入 程序 计数 器 。 
主 存 中 的 每 个 字 ， 或 是 一 条 指令 ， 或 是 一 个 2 的 补 码 表示 的 数 。 通 过 编程 以 实现 如 下 操作 ， 来 证 明 这 
个 指令 清单 是 相当 完整 的 。 
(a) 数据 传送 : 位 置 X 到 累加 器 ， 累 加 器 到 位 置 X。 
(b) 加 法 : 将 位 置 X 的 内 容 加 到 累加 器 。 
(c) 条 件 转移 。 
(d) 逻辑 OR。 
(e) VO 操作 。 

10.8 ”多数 指令 集 都 有 一 条 空 操作 (NOOP) 指令 。 除 了 递增 程序 计数 器 之 外 ， 它 对 CPU 状态 没有 任何 影 
响 。 请 给 出 这 条 指令 的 一 些 使 用 示例 。 

10.9 在 10.4 节 中 曾 提 到 : 当 无 溢出 时 ， 算 术 和 逻辑 的 左 移 相 当 于 乘 以 2; 出 现 溢出 时 ， 二 者 产生 不 同 的 
结果 ， 但 算术 左 移 仍 保持 原 符 号 位 。 请 用 两 个 5 位 2 的 补 码 整数 来 验证 此 话 是 对 的 。 
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10. 10 
10. 11 
10. 12 


10. 13 


10. 14 


10. 15 


算术 右 移 时 ， 数 以 何 种 方式 舍 入 (例如, 朝 +% 舍 和 信 , 朝 -% 舍 人 ， 朝 0 舍 人 ,远离 0 舍 人 )? 
假设 一 个 栈 被 处 理 器 用 来 管理 过 程 调用 和 返回 。 能 否 以 栈 项 作为 程序 计数 器 从 而 取消 原 程序 计数 器 ? 
在 x86 体系 结构 中 有 一 条 称 作 “加 后 十 进 制 调整 ” ( decimal adjust after addition, DAA) 指令 。DAA 
指令 完成 如 下 操作 顺序 : 
if ((AL AND OFH) >9) OR (AF =1) then 
AL<*—AL +6; 
AF1; 
else 
AF0; 
endif; 
if (AL >9FH)OR (CF =1)then 
AL«—AL +60H; 
CF<1; 
else 
CF 0; 
endif. 


上 述 程序 中 ,“H” 表 示 十 六 进 制 。AL 是 一 个 8 位 寄存 器 ， 它 可 容纳 两 个 无 符号 8 位 整数 的 相 加 结 

R, AF 是 辅助 进位 标志 ， 若 加 法 的 结果 中 有 位 3 向 位 4 的 进位 ， 它 被 置 位 。CF 是 进位 标志 ， 若 有 

位 7 向 位 8 的 进位 ， 它 被 置 位 。 说 明 DAA 指令 所 完成 的 功能 。 

x86 的 比较 指令 CMP 由 目标 操作 数 减 源 操作 数 ; 它 改 动 状态 标志 (C、P、A、Z、S、0) ， 但 不 改变 

两 个 操作 数 。CMP 指令 可 以 用 来 确定 目的 操作 数 是 否 大 于 ， 等 于 或 小 于 源 操作 数 。 

(a) 假设 两 个 操作 数 被 当 作 无 符号 整数 。 指 出 哪些 状态 标志 与 确定 两 个 整数 绝对 值 相对 大 小 有 关 ， 
以 及 大 于 ， 等 于 或 小 于 分 别 对 应 于 什么 标志 值 。 

(b) 假设 两 个 操作 数 被 当 作 2 的 补 码 表示 的 有 符号 整数 。 指 出 哪些 状态 标志 与 确定 两 个 整数 绝对 值 
相对 大 小 有 关 ， 以 及 大 于 ， 等 于 或 小 于 分 别 对 应 于 什么 标志 值 。 

(c) CMP 指令 之 后 常 是 一 条 条 件 转移 (Jcc) 或 条 件 设置 (SETcc) 指令 ， 这 里 的 ce 指 的 是 表 10-11 
所 列 的 16 个 条 件 之 一 。 说 明 对 有 符号 数 比较 所 测试 的 条 件 是 正确 的 。 

若 希 望 将 x86 的 CMP 指令 用 于 32 位 浮 点 数 操作 ， 要 得 到 正确 的 结果 ， 下 面 提 到 的 这 些 部 分 必须 满 

足 什么 要 求 ? 

(a) 有 效 值 、 符 号 、 阶 值 各 字段 的 相对 位 置 。 

(b) 值 0 的 表示 。 

(c) 阶 值 的 表示 。 

(d) IEEE 754 格式 满足 这 些 要 求 吗 ? 请 说 明 。 

大 多 数 微 处 理 器 指令 集 都 包括 这 样 一 条 指令 : 它 测试 条 件 ， 并 当 条 件 是 真 时 设置 目标 操作 数 。 这 样 

的 例子 有 x86 上 的 SETcc, Motorola MC68000 上 的 Scc 和 National NS3200 上 的 Scond。 

(a) 这 些 指令 中 有 几 点 不 同 : 

© SETce 和 See 只 对 字 节 操作 ， 而 Scond 可 对 字 节 、 字 、 双 字 操作 。 

© SETcc 和 Scond 是 当 条 件 为 真 时 设置 操作 数 为 整数 1， 为 假 时 设置 为 0。Scc 则 是 为 真 时 设置 

字 节 为 全 1， 为 假 时 设置 为 全 0。 

这 些 不 同 的 相对 优 缺 点 是 什么 ? 

这 些 指令 本 身 都 不 修改 任何 条 件 代 码 标志 ， 因 此 确定 这 些 指 令 所 设置 的 值 时 需要 显 式 测试 指令 

结果 ， 而 不 能 借助 条 件 人 代码。 讨论， 是 否 应 该 允许 这 种 指令 修改 条 件 标志 。 

1% IF a >b THEN 这 样 的 简单 IF 语句 能 使 用 一 种 数值 表示 法 来 实现 ， 它 使 布尔 表达 式 的 值 显 式 

表示 出 来 。 这 种 方法 与 控制 流 (flow of control) 方法 不 同 ， 控 制 流 方法 中 布尔 表达 式 的 值 是 通 

过 程序 控制 流 到 达 点 的 不 同 来 体现 的 。 一 个 编译 器 可 用 如 下 x86 代码 来 实现 下 a > b THEN 

语句 : 


(b 


一 


(c 


— 


SUB CX,CX ; #CX 寄存 器 为 0 
MOV ”AX, B 7;B 的 内 容 传送 到 Ax 寄存 器 
CMP AX,A ;AX 的 内 容 与 A 的 内 容 比 较 
JLE TEST ; 车 A<B 则 转移 
INC ”Cx ;否则 ,CX 寄存 器 加 1 

TEST ”JCXz OUT ;车 CX 等 于 0 则 转移 

THEN OUT 
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(A>B) 的 结果 作为 一 个 布尔 值 ， 被 保持 到 了 CX 寄存 器 中 ， 因 此 在 上 面 所 示 代 码 范围 之 外 还 
可 用 。 这 种 情况 下 使 用 CX 保存 布尔 值 是 很 方便 的 ， 因 为 多 数 转移 和 循环 指令 都 有 测试 CX 的 


功能 。 
请 用 SETce 指令 来 实现 上 述 功能 ， 以 便 节 省 存储 空间 和 执行 时 间 (提示 : BR SETcc 之 外 ， 不 需 
要 再 添加 其 他 的 x86 指令 ) 。 


(d) 现在 考虑 高 级 语言 语句 : 
:=(B>C) OR(D =F) 
编译 器 可 生成 如 下 代码 : 
MOV EAX,B ; 传送 位 置 B 的 内 容 到 EAX 寄存 器 
CMP EAX,C ; 比较 寄存 器 EAX 和 位 置 C 中 的 内 容 
MOV BL,0 ; 0 表示 假 
JLE N1 ; 车 B<C 则 转移 
MOV BL,1 ;1 表示 真 
Nl MOV EAX,D 
CMP EAX,F 
MOV BH,0 
JNE N2 
MOV BH,1 
N2 OR BL,BH 


请 用 SETcc 指令 来 实现 ， 从 而 节省 存储 器 空间 和 执行 时 间 。 
10.16 ”假设 两 寄存 器 含有 的 十 六 进 制 值 分 别 为 AB0890C2 和 4598EE50。 使 用 MMX 指令 相 加 的 结果 是 什么 ， 
假设 不 采用 饱和 算术 : 
(a) 作为 压缩 字 节 
(b) 作为 压缩 字 
10.17 附录 10A 指出 ， 若 栈 仅 被 处 理 器 用 于 过 程 调用 处 理 这 样 的 目的 ， 则 指令 集中 可 以 没有 面向 栈 的 指 
令 。 没 有 这 些 面向 栈 的 指令 ， 处 理 器 是 如 何 做 到 对 栈 的 使 用 的 ? 
10.18 ”将 如 下 算式 由 逆 波 兰 (reverse Polish) 表达 式 转换 为 中 组 表达 式 (infix): 
(a) AB+C+Dx 
(b) AB/CD/ + 
(c) ABCDE + x x/ 
(d) ABCDE +F/+G-H/x + 
10.19 H RU SESK PR e ER K+ RANE : 
(a) A+B+C+D+E 
(b) (A+B) x(C+D) +E 
(c) (AxB) +(CxD) +E 
(d) (A-B) x(((C-DxE)/F)/G) xH 
10.20 将 表达 式 A+B -C 使 用 Dijkstra 算法 转换 成 后 缀 表示 法 ， 显 示 所 涉及 的 步骤 。 结 果 是 等 价 于 (A + 
B) -C， 还 是 A+(B-C)? 这 要 紧 吗 ? 
10.21 使 用 附录 10A 中 定义 的 中 缀 法 到 后 缀 法 (postfix) 转换 的 算法 ， 显 示 将 图 10-15 中 的 计算 公式 转换 
成 后 缀 法 的 各 步 ， 使 用 类 似 于 图 10-17 的 显示 格式 。 
10.22 显示 图 10-17 中 的 表达 式 计算 ,使 用 类 似 于 图 10-16 的 格式 。 
10.23 重 画 图 10-18 中 的 小 端 排列 ， 使 字 节 按 大 端的 方式 进行 编号 和 显示 ， 即 把 存储 器 表示 为 64 位 的 行 ， 
字 节 排列 是 从 左 到 右 、 从 上 到 下 。 
10.24 ”对 如 下 数据 结构 ， 请 使 用 图 10-18 的 格式 画 出 小 端的 排列 情况 和 大 端的 排列 情况 ， 并 对 其 注解 。 


(a) struct { 
double i ; /(x1112131415161718 
} sl; 
(b) struct { 
int. i; /Mx11121314 
int j; /#x15161718 
} s2: 
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10. 25 


10. 26 


10. 27 


10. 28 


(ce) struct { 

short i; /Ax1112 

short j; //0x1314 
short k; /Ax1516 
short 1; /Ax1718 
}'s3\; 
IBM Power 体系 结构 规范 中 不 规定 处 理 器 应 如 何 实现 小 端 模式 。 它 只 指定 当 以 小 端 模式 操作 时 ， 处 
理 器 所 看 到 的 存储 器 形式 。 当 数据 结构 由 大 端 格式 转换 到 小 端 格 式 时 ， 处 理 器 有 选择 的 自由 ， 它 
既 可 用 真 的 字 节 交换 机 制 来 实现 ， 也 可 用 某 种 地 址 修改 机 制 来 实现 。 当 前 的 Power 处 理 器 的 默认 
方式 全 是 大 端 机 制 ， 并 使 用 地 址 修改 法 来 对 待 小 端的 数据 。 
考虑 图 10-18 中 定义 的 结构 s， 图 的 右 下 部 表示 的 处 理 小 端 对 齐 地 址 映射 
器 所 看 到 的 结构 s。 实 际 上 ， 若 结构 s 以 小 端 模式 被 编 “ 字 节 地 
译 时 ， 它 在 存储 器 中 的 排列 情况 如 图 10-12 所 示 。 解释 。 “ 
它 所 涉及 的 映射 ， 描 述 实现 此 映射 的 简易 方式 ， 并 讨论 og 
这 种 方法 的 效率 。 
编写 一 个 测试 机 器 端 序 模式 并 报告 结果 的 小 程序 ， 并 上 10 
机 运行 。 
MIPS 处 理 器 能 设置 成 以 大 端 或 小 端的 模式 来 操作 。 考 。 
察 它 的 装 人 无 符号 字 节 (load byte unsigned, LBU) 指 20 
令 ， 它 将 存储 器 一 字 节 装 人 寄存 器 的 低位 ， 寄 存 器 的 高 
24 位 填充 0。MIPS 参考 手册 使 用 一 种 寄存 器 传送 语言 。 ” 图 10-12 Power 体系 结构 内 存 
来 描述 LBU 指令 : 中 的 小 端 数据 结构 s 
mem+— Load Memory (... ) 
byte«-Virtual Address, 5 
if CONDITION then 
GPR[rt] 二 02 //mem3; -8 X byte..24 -8 X byte 

else 





GPR [rt] «0% //mem, ,as x byte..8 X byte 
endif 


这 里 的 byte 指 的 是 有 效 地 址 的 低 两 位 ，mem 指 的 是 取 自 存储 器 的 装 入 值 。 手 册 中 替代 CNODITION 
的 字 是 BigEndian (大 端 ) 、LittleEndian (小 端 )。 你 认为 应 使 用 哪个 字 ? 

大 多 数 处 理 器 ， 但 不 是 全 部 ， 在 字 节 中 使 用 大 端 或 小 端的 位 序 ， 与 在 多 字 节 标量 中 大 端 或 小 端的 字 
节 排 序 是 一 致 的 。 让 我 们 考察 Motorola 68030 ， 它 使 用 大 端的 字 节 排序 。 然 而 关于 格式 的 68030 文档 
有 些 混乱 。 用 户 手册 说 明 位 域 的 位 序 与 整数 的 位 序 相 反 。 大 多 数 的 位 域 操作 以 一 种 端 序 来 操作 ， 但 
少数 的 位 域 操作 义 要 求 相 反 的 端 序 。 用 户 手册 这 样 描述 了 大 多 数 的 位 域 操作 : 

位 操作 数 由 基地 址 和 位 号 指定 ， 基 地 址 选择 存储 器 一 字 节 〈 基 字 节 ) ， 位 号 选择 此 字 节 中 的 一 位 。 
最 高 有 效 位 的 位 号 是 位 7。 位 域 操作 数 由 如 下 指定 : (1) 选择 存储 器 一 字 节 的 基地 址 。(2) 位 域 偏 
® (bit field offset) ， 它 指示 位 域 最 左 位 〈 基 位 ) 相对 于 基 字 节 最 高 有 效 位 的 偏 移 。(3) 位 域 宽度 ， 
它 指出 基 字 节 右 起 的 多 少 位 在 此 位 域 中 。 基 字 节 最 高 有 效 位 的 位 域 偏 移 是 0， 基 字 节 最 低 有 效 位 的 
位 域 偏 移 是 7。 

这 些 指令 使 用 的 是 大 端 位 序 还 是 小 端 位 序 ? 


附录 10A $ 

栈 (stack) 是 个 有 序 元 素 组 ,一 次 仅 能 存 取 它 的 一 个 元 素 。 此 存 取 点 称 为 栈 项 (top)。 栈 中 元 素 的 数 
目 或 说 栈 的 长 度 〈length) ， 是 可 变 的 。 栈 中 最 后 一 个 元 素 称 为 栈 底 (base) 。 栈 的 元 素 只 能 由 栈 顶 添加 或 删 
除 。 因 此 ， 栈 也 常 被 看 作 是 下 压 式 列表 (push down list 或 后 进 先 出 (LIFO) 列表 )” 。 

图 10-13 表示 了 栈 能 完成 的 基本 操作 。 我 们 以 栈 已 含有 某 些 元 素 的 时 刻 开始 。 一 个 PUSH (AR) 操作 
将 一 个 新 元 素 添加 到 栈 项。 一 个 POP (HR) 操作 移 去 栈 项 元 素 。 在 这 两 种 情况 下 ， 栈 项 都 要 相应 进行 移 


O 更 好 的 术语 是 项 上 放 列表 (place-on-top of list) ， 因 为 添加 新 元 素 时 ， 栈 中 现 有 元 素 并 不 向 下 移动 ， 而 是 新 元 素 放 


入 下 一 个 可 用 的 存储 器 地 址 中 。 
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动 。 此 外 ， 要 求 两 个 操作 数 的 二 元 操作 〈 如 加 、 减 、 乘 、 除 ) ， 使 用 项 部 的 两 个 元 素 作为 操作 数 ，POP 两 个 
元 素 ， 然 后 再 将 结果 PUSH 到 栈 上 。 只 要 求 一 个 操作 数 的 一 元 操作 ( 如 逻辑 NOT) 只 使 用 栈 顶 元 素 。 所 有 
这 些 操作 总 结 于 表 10-13, 


表 10-13 ”与 栈 有 关 的 操作 







栈 项 上 添加 一 个 新 元 素 
移 走 栈 项 元 素 
对 栈 顶 元 素 完成 操作 ， 以 结果 替换 栈 顶 元 素 

对 栈 顶 元 素 操作 ， 删 除 栈 顶 两 元 素 ， 操 作 结果 放 到 栈 顶 











一 元 操作 





地 址 递减 

















开始 PUSH 之 后 乘法 操作 之 后 
SP = 栈 指 针 
BP= 基 指 针 


图 10-13 ”基本 栈 操作 〈 满 /向 下 增长 ) 


10A.1 栈 的 实现 


栈 是 一 种 有 用 的 结构 ， 作 为 CPU 实现 的 部 分 来 提供 。 在 10.4 节 讨 论 过 的 一 种 用 途 是 管理 过 程 的 调用 和 
返回 。 栈 对 程序 员 亦 是 有 用 的 ， 例 如 表达 式 求 值 ， 本 节 稍 后 即 讨 论 。 

栈 的 实现 ， 部 分 取决 于 它 的 可 能 的 用 途 。 如 果 要 求 栈 操作 可 被 程序 员 使 用 ， 则 指令 集 将 包括 与 栈 有 关 
的 操作 ， 如 PUSH, POP 和 使 用 一 个 或 两 个 栈 顶 元 素 作为 处 理 器 主 存储 器 
操作 数 的 操作 。 因 为 所 有 这 些 操作 指 的 都 是 唯一 的 位 置 ， 
即 栈 顶 。 故 操作 数 地 址 或 操作 数 是 隐 含 的 ， 并 不 需要 在 指 
令 中 明确 指出 。 这 些 是 10.1 节 所 指 的 零 地 址 指令 。 

如 果 栈 机 制 将 只 由 CPU 使 用 ， 用 于 过 程 管理 这 类 目 
的 ， 那 么 指令 集中 将 没有 显 式 的 与 栈 有 关 指 令 。 无 论 是 哪 
种 情况 ， 栈 的 实现 都 要 求 有 一 组 位 置 用 来 保存 栈 元 素 。 一 
个 典型 的 方法 示 于 图 10-14。 主 存 (或 虚 存 ) 中 的 连续 位 置 
块 保留 给 栈 。 大 多 数 时 间 ， 块 只 是 部 分 地 被 栈 元 素 所 填 
充 ， 剩 余 的 部 分 可 用 于 栈 增长 。 

有 三 个 与 栈 相关 的 地 址 需要 恰当 地 操作 ， 并 且 它 们 通 
常 存 于 CPU 寄存 器 中 。 

© 栈 指针 (stack pointer): 保存 着 栈 顶 的 地 址 。 若 一 

元 素 被 添加 到 栈 或 由 栈 移 走 ， 则 此 指针 相应 地 被 
递减 或 递增 ， 以 保存 新 栈 顶 的 地 址 。 

e Ett (stack base): 保存 为 栈 保 留 的 内 存 块 底部 

位 置 的 地 址 。 当 栈 是 空 时 ， 试 图 进行 POP 操作 将 
otal 图 10-14 ”典型 的 栈 组 织 〈 满 /向 下 增长 ) 
© 栈 界 限 (stack limit): 保存 为 栈 保留 的 内 存 块 另 一 ‘ 


端的 地 址 。 当 内 存 块 全 被 栈 使 用 时 ， 若 试图 进行 PUSH 操作 则 报告 出 错 。 
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栈 的 实现 有 两 个 关键 的 属性 : 
。 向 上 增长 /向 下 增长 : 一 个 向 上 增长 (ascending) 的 栈 向 地 址 增 大 方向 增长 ， 从 低地 址 开始 并 向 高 地 
址 推进 。 也 就 是 说 ， 一 个 向 上 增长 的 栈 ， 当 有 元 素 人 栈 时 ， 其 SP 是 递增 的 ， 而 当 元 素 出 栈 时 ，SP 
是 递减 的 。 一 个 向 下 增长 的 栈 (descending) 向 地 址 下 降 的 方向 增长 ， 从 高 地 址 向 低地 址 推进 。 大 多 
数 机 器 默认 栈 由 高 地 址 向 低地 址 增长 。 
。 满 / 空 : 这 是 一 个 有 误导 性 的 术语 ， 因 为 它 不 是 指 栈 完 全 空 或 完全 满 。 相 反 ，SP 可 以 指向 栈 的 顶部 
元 素 ( 满 ，full) ， 或 者 栈 的 下 一 个 空闲 位 置 〈 空 ，empty ) 。 对 于 满 方式 ， 当 栈 真正 的 完全 填 满 了 ， 
SP 指向 栈 的 上 限 。 对 于 空 方式 ， 当 栈 全 空 时 ，SP 指向 栈 的 基 (RIE) 
图 10-13 是 向 下 增长 / 空 方式 栈 实现 的 例子 〈 假 设 数值 低 的 地 址 在 图 的 上 方 ) 。ARM 体系 结构 允许 系统 
程序 员 指定 是 使 用 向 上 增长 还 是 向 下 增长 的 栈 ， 以 及 空 方式 或 满 方式 的 栈 操 作 。x86 体系 结构 采用 向 下 增长 
/ 空 方式 的 栈 。 


10A.2 表示 式 求 值 


数学 表示 式 通 常 以 一 种 称 为 中 缀 (infix) 表示 法 来 表达 。 按 照 这 种 形式 ， 二 元 操作 符 出 现在 两 个 操作 数 
之 间 〈 如 a+b)。 对 于 复杂 的 表达 式 ， 要 使 用 括号 来 确定 表达 式 求 值 顺序 。 例 如 ，a + (b xe) 将 产生 不 同 于 
(a+b) xc 的 结果 。 为 减少 括号 的 使 用 ， 操 作 具 有 一 个 隐 含 的 优先 顺序 。 通 常 是 乘 优先 于 加 ， 于 是 a+b xe 
等 同 于 a+ (bxc)。 

另 一 种 方法 是 称 为 逆 波 兰 (reverse polish) RAR (postfix) 表示 法 。 以 这 种 形式 ， 操 作 符 是 跟随 在 它 
的 两 个 操作 数 之 后 。 例 如 : 

a+b 变 成 ab + 

a+(bxc) 变 成 abc x + 

(a+b) xc 变 成 ab +cx 
注意 ， 不 管 一 个 表示 式 是 多 么 复杂 ， 使 用 逆 波 兰 表示 法 都 不 需要 括号 。 

后 级 表示 法 的 优点 是 ， 采 用 这 种 形式 的 表达 式 很 容易 使 用 栈 来 完成 求 值 计算 。 后 缀 表示 法 的 算式 是 由 
左 向 右 被 扫描 ， 对 算式 的 每 个 元 素 施加 如 下 的 法 则 : 

(1) 若 元 素 是 一 个 变量 或 常数 ， 把 它 压 人 栈 。 

(2) 若 元 素 是 一 个 操作 符 ， 则 弹出 栈 顶 部 两 个 元 
素 ， 完 成 操作 并 将 结果 压 人 栈 。 

整个 表达 式 被 扫描 之 后 ， 结 果 已 在 栈 顶 上 。 

这 种 算法 的 简明 性 使 它 求 值 表 达 式 很 方便 。 于 
是 ， 多 数 编译 器 都 是 先 将 高 级 语言 的 表达 式 转换 成 后 
级 表示 式 ， 然 后 再 产生 相应 机 器 指令 。 图 10-15 表示 
了 使 用 与 栈 有 关 指 令 对 f= (a-b)/(c+d xe) RAN 
机 器 指令 序列 。 图 10-15 也 表示 了 单 地 址 和 双 地 址 指令 
的 使 用 。 注 意 ， 尽 管 后 两 种 情况 没 使 用 与 栈 有 关 的 规 
则 ， 但 后 绥 表 示 法 仍 用 做 生成 机 器 指令 的 指南 。 栈 程 
序 的 事件 序列 显示 于 图 10-1 6 中 。 图 10-15 计算 f=(a-b)X(ce+dxe) 的 三 个 程序 比较 

将 中 组 表示 式 转换 成 后 缀 表示 式 的 过 程 自身 ,使 
用 栈 也 是 极 易 完成 的 。 如 下 算法 归功 于 Dijkstra (参见 [ DIJK63] )。 算 法 从 左 到 右 扫 描 中 缀 表示 式 ， 随 着 扫 
描 的 进行 ， 后 缀 表示 式 生 成 并 输出 。 步 又 如 下 : 

(1) 检查 输入 的 下 一 个 元 素 。 

(2) 若 它 是 一 个 操作 数 ， 则 输出 它 。 

(3) 若 它 是 一 个 开 括 号 (AHS), HERA. 

(4) 阁 它 是 一 个 操作 符 ， 则 有 如 下 情况 : 

。 若 栈 顶 是 一 个 开 括号 ， 把 操作 符 压 入 栈 。 

。 若 它 比 栈 顶 操作 符 有 更 高 优先 权 〈 乘 和 除 优先 于 加 和 减 ) ， 则 把 此 操作 符 压 人 栈 。 

。 和 否则， 从 栈 弹出 操作 符 到 输出 ， 并 重复 步 又 (4) 。 

(5) 若 它 是 一 个 闭 括 号 (有 括号 ) ， 则 弹出 操作 符 到 输出 ， 直 到 遇 上 一 个 开 括号 。 弹 出 并 作废 此 开 括 号 。 
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图 10-16 计算 f=(a-b)/[ (dxe) +c] 时 栈 的 使 用 


(6) 若 还 有 输入 ， 回 到 步 又 (1). 
(7) 若 没有 输入 了 ， 则 弹出 所 有 剩余 操作 符 到 输出 。 
图 10-17 说 明了 这 种 算法 的 使 用 。 这 个 例子 应 能 给 读者 一 点 对 基于 栈 算法 效力 的 感受 。 





图 10-17 由 中 级 表示 法 到 后 级 表示 法 的 算式 转换 


附录 10B 小 端 、 大 端 和 双 端 

一 些 奇怪 并 令 人 气 恼 的 现象 ， 涉 及 字 中 的 字 节 和 字 节 中 的 位 如 何 表示 及 引用 的 问题 。 我 们 首先 查看 字 
节 排序 问题 ， 然 后 再 考虑 位 排序 。 
10B.1 字 节 排序 


端 序 (endianness) 概念 首先 是 在 Cohen 的 著作 中 讨论 的 (参见 [COHE81 ] ) 。 就 字 节 而 言 ， 端 序 与 多 
字 节 标量 值 的 字 节 排序 相关 。 用 例子 更 能 说 明 问 题 之 所 在 。 假 定 我 们 有 32 位 的 十 六 进 制 值 12345678 ， 并 且 
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它 以 一 个 32 位 字 存 于 字 节 可 寻 址 的 存储 器 字 节 位 置 184 处 。 此 值 由 4 个 字 节 组 成 ,最 低 有 效 字 节 的 值 是 78， 
最 高 有 效 字 节 的 值 是 12。 存 储 此 值 有 两 种 方式 : 

左边 的 映射 方式 是 将 最 高 有 效 字 节 存 于 最 低 数值 的 字 节 地 址 中 ， 称 为 大 端 序 
( big-endian ordering) ， 它 等 同 于 西方 文化 语言 中 的 从 左 到 右 书写 顺序 。 右 边 的 映 
射 方 式 是 将 最 低 有 效 字 节 存 于 最 低 数值 的 字 节 地 址 中 ， 称 为 小 端 序 (little-endian 
ordermg) ， 它 使 我 们 联想 起 算术 单元 中 的 从 右 到 左 的 算术 运算 次 序 。 对 于 一 个 给 
定 的 多 字 节 标量 值 ， 大 端 和 小 端 映 射 方式 的 字 节 排列 彼此 正好 相反 。 

端 序 概念 的 出 现 ， 是 在 必须 将 多 个 字 节 项 看 作 是 具有 单一 地 址 的 单个 数据 项 时 ， 尽 管 它 是 由 更 小 的 可 
寻 址 单元 组 成 。 某 些 机 器 ， 像 Intel 80x86, x86, VAX 和 Alpha， 是 小 端的 机 器 ， 而 像 IBMS370/390, Motoro- 
la 的 680x0 Sun SPARC 和 大 多 数 RISC 机 器 采用 的 是 大 端 。 当 数据 由 一 种 端 序 类 型 的 机 器 传送 到 另 一 类 机 
器 时 ， 和 当 程 序 试图 操纵 多 字 节 标量 的 个 别 字 节 或 个 别 位 时 ， 就 会 出 现 问题 。 

端 序 特性 不 扩展 到 单个 数据 单元 之 外 。 在 任何 机 器 中 ， 像 文件 、 数 据 结构 和 阵列 这 类 的 集合 都 是 由 多 
个 数据 单元 组 成 的 ， 每 个 数据 单元 都 有 自己 的 端 序 。 于 是 ， 将 存储 器 数据 块 由 一 种 风格 的 端 序 转换 成 另 一 
种 风格 时 ， 需 要 了 解数 据 的 结构 。 

图 10-18 说 明 端 序 如 何 确定 寻 址 和 字 节 次 序 。 图 中 顶部 的 C 结构 含有 几 种 数据 类 型 。 左 下 部 的 存储 器 排 
放 情 况 来 自 大 端 机 器 编译 这 个 结构 的 结果 ， 右 下 部 是 小 端 机 器 的 编译 结果 。 无 论 是 哪 种 情况 ， 存 储 器 显示 
为 一 系列 64 位 的 行 。 对 于 大 端 情况 ， 存 储 器 安排 成 从 左 到 右 、 从 上 到 下 ; 而 对 于 小 端 情况 ， 存 储 器 安排 成 
从 右 到 左 、 从 上 到 下 。 注 意 ， 这 些 安排 是 任意 的 。 无 论 使 用 哪 种 映射 方式 ， 在 一 行内 可 使 用 从 左 到 右 也 可 
使 用 从 右 到 左 安排 ; 这 只 是 一 种 表述 的 形式 ， 不 是 存储 器 指定 的 。 实 际 上 ， 查 看 某 类 机 器 的 编程 手册 时 ， 可 
发 现 令 人 困惑 的 各 种 表述 ， 甚 至 在 同一 本 手册 中 也 是 这 样 。 


struct { 





int a; //0x1112_1314 word 
int pad; // 
double b; //0x2122 2324 2526 2728 doubleword 
char? c //0x3132_3334 word 
char d(7]; //'a','B','C','D’,'E','F’,'G’ byte array 
short e; //0x5152 halfword 
int E; //0x6162_6364 word 
}s; 
大 端 映射 小 端 映射 






00 





图 10-18 C 数据 结构 及 其 端 序 映 射 例子 


我 们 能 观察 到 有 关 这 个 数据 结构 的 几 点 结论 : 

。 在 两 种 策略 中 每 个 数据 项 有 同样 地 址 。 例 如 ， 有 十 六 进 制 值 2122232425262728 的 双 字 的 地 址 是 08。 

。 在 任何 一 个 给 定 的 多 字 节 标量 值 中 ， 小 端的 字 节 排序 是 大 端的 反 序 ， 反 之 亦 然 。 

。 端 序 不 影响 结构 中 数据 项 的 次 序 。 于 是 ，4 字符 的 字 c 展示 出 字 节 的 反 序 ,但 7 字符 的 字 节 数 组 d 却 
不 是 。 因 此 ，d 的 各 个 元 素 的 地 址 在 两 种 结构 中 是 相同 的 。 





© 术语 big endian fil little endian 来 自 Jonathan Swift 的 《Gullivers Travels》 第 1 部 分 的 第 4 章 ， 它 们 指 的 是 两 个 组 织 间 
的 一 场 宗 教 争 论 ， 一方 说 应 在 小 头 打破 鸡蛋 ， 男 一 方 说 应 在 大 头 打破 鸡蛋 。 
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当 我 们 把 存储 器 视 作 一 个 垂直 的 字 节 队列 时 ， 或 许 更 能 清楚 地 说 明 端 序 的 效果 ， 如 图 10-19 所 示 。 


哪 种 端 序 更 优 一 点 ， 没 有 普遍 一 致 的 意见 ” 。 如 下 观点 偏爱 大 端 风格 : 

。 字符 串 排 序 ( sorting) : 在 比较 整数 排列 的 字符 串 时 ， 大 端 机 器 更 容易 
些 ; 整数 ALU 能 并 行 比较 多 个 字 节 。 

。 十 进 制 /IRA 打印 输出 : 所 有 值 能 从 左 到 右 打印 而 不 会 引起 混乱 。 

。 一 致 的 次 序 : 大 端 处 理 器 以 同样 的 次 序 存储 它 的 整数 和 字符 串 〈 最 高 
有 效 字 节 最 先 存储 ) o 

以 下 观点 偏爱 小 端 风格 : 

。 整数 地 址 转换 : 一 个 大 端 处 理 器 当 需 要 转换 32 位 整数 地 址 到 16 位 整 
数 地 址 时 ， 它 必须 完成 加 法 ， 以 便于 使 用 最 低 有 效 字 节 。 

。 算术 : 采用 小 端 风格 完成 高 精度 算术 更 容易 些 ; 你 不 必 找 到 最 低 有 效 
字 节 和 反 向 移动 。 

两 种 风格 难 分 高 低 ， 并 且 端 序 风 格 的 选取 经 常 更 多 考虑 兼容 以 前 的 机 器 
而 不 是 其 他 因素 。 

PowerPC 是 一 个 既 支持 大 端 模式 又 支持 小 端 模 式 的 双 序 机 器 。 这 种 结构 多 
许 软件 开发 人 员 在 将 操作 系统 和 应 用 由 另 一 种 机 器 迁 和 时， 选取 某 种 端 模式 。 
操作 系统 建立 处 理 器 执行 时 使 用 的 端 模式 。 一 旦 模式 被 选 定 ， 所 有 后 续 的 装 
载 和 保存 都 由 这 种 模式 下 的 存储 器 寻 址 方式 所 确定 。 为 支持 硬件 这 种 特点 ， 
机 器 状态 寄存 器 (Machine State Register, MSR) 中 的 对 应 两 位 ， 由 操作 系统 
视 作 进程 状态 的 一 部 分 来 维护 。 一 位 用 来 指定 内 核 运 行 时 所 采用 的 端 模 式 ; 另 
一 位 用 来 指定 处 理 器 的 当前 操作 的 模式 。 于 是 ， 模 式 可 依 每 个 进程 来 改变 。 


10B.2 位 排序 


对 于 字 节 中 的 位 排序 ， 我 们 立刻 面 对 两 个 问题 : 

(1) 把 第 1 位 是 计 为 位 0 还 是 计 为 位 1? 

(2) 把 此 最 低位 号 是 指派 给 字 节 的 最 低 有 效 位 〈 小 端 ) 还 是 指派 给 字 节 
的 最 高 有 效 位 (大 端 )? 

这 些 问 题 在 所 有 机 器 中 不 是 以 同样 方式 回答 的 。 实 际 上 ， 在 某 些 机 器 上 ， 
在 不 同 的 环境 下 也 有 不 同 的 答案 。 而 且 ， 字 节 内 大 端 或 小 端 位 次 序 的 选取 与 
多 字 节 标量 中 的 大 端 或 小 端 字 节 次 序 的 选取 并 不 总 是 一 致 的 。 当 操作 个 别 位 
时 ， 程 序 员 必须 关注 这 些 问 题 。 

需 关注 的 另 一 领域 是 ， 在 数据 经 由 位 串 行 线路 发 送 情况 下 ， 当 发 送 各 个 





ay Ki b) 小 站 


图 10-19 图 10-18 的 
另 一 种 视图 


字 节 时 ， 系 统 是 先 发 送 最 高 有 效 位 还 是 最 低 有 效 位 ? 设计 者 必须 确保 收 到 的 位 能 被 正确 地 处 理 。 这 个 问题 


的 讨论 请 参见 [JAME90 ] 。 





© 在 《Gullivers Travels》 一 书 中 ， 争 论 的 两 个 组 织 都 尊敬 的 预言 家 说 : “所 有 真实 信徒 都 将 在 他 方便 的 一 端 打破 他 


的 鸡蛋 。” 这 不 是 很 有 帮助 吗 ?! 
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指令 集 : 寻 址 方式 和 指令 格式 


本 章 要 点 


。 指令 的 操作 数 引用 有 两 种 形式 : 一 是 指令 中 含有 操作 数 的 实际 值 (立即 数 )， 二 是 指令 中 
含有 对 操作 数 地 址 的 引用 。 各 种 指令 集 使 用 类 型 广泛 的 寻 址 方式 。 这 包括 直接 寻 址 (RK 
作 数 地 址 在 指令 的 地 址 字段 中 )、 间 接 寻 址 (地 址 字段 指向 一 个 存储 位 置 ， 此 位 置 含有 操 
作 数 地 址 )、 寄 存 嚣 寻 址 、 寄 存 器 间接 寻 址 ， 以 及 各 种 形式 的 偏 移 寻 址 (寄存 器 值 加 上 地 
址 值 产生 操作 数 地 址 ) 。 
。 指令 格式 定义 了 指令 中 字段 的 布局 。 指 令 格 式 设计 是 一 件 十 分 复杂 的 事情 ， 要 考虑 到 诸 
多 因素 ， 如 指令 长 度 是 定 长 还 是 变 长 ， 指 派 给 操作 码 和 每 个 操作 数 引用 的 位 数 ， 以 及 如 
何 确定 寻 址 方式 等 。 
第 10 章 重 点 讨论 了 指令 集 做 什么 ,特别 是 考察 了 机 器 指令 可 指定 的 操作 和 操作 数 类 型 。 本 
章 讨论 如 何 指定 指令 的 操作 和 操作 数 。 这 里 要 解决 两 个 问题 ， 首 先是 如 何 指定 操作 数 地 址 ， 其 次 
是 指令 的 位 如 何 组 织 ， 以 定义 操作 数 地 址 和 操作 。 


11.1 寻 址 方式 


正如 以 前 提 到 过 的 ， 指 令 格式 中 的 地 址 字段 通 
常 是 相对 较 小 的 。 我 们 希望 ， 有 能 力 大 范围 地 访问 
主 存 或 虚拟 存储 器 。 为 实现 此 目标 ,指令 采用 了 各 
类 寻 址 技术 。 它 们 都 涉及 地 址 范围 和 寻 址 灵活 性 之 seeds 
间 ， 以 及 存储 器 引用 数 和 地 址 计算 复杂 性 之 间 的 权 bese 
衡 考 虑 。 本 节 将 考察 最 常用 的 寻 址 技术 : 立即 寻 
址 、 直 接 寻 址 、 间 接 寻 址 、 寄 存 器 寻 址 、 寄 存 器 间 
接 寻 址 、 偏 移 寻 址 、 栈 寻 址 。 
图 11-1 显示 了 这 些 方式 。 在 本 节 中 ,我们 将 使 
用 如 下 表示 法 : 寄存 器 组 
A = 指令 中 地 址 字段 的 内 容 : 中 寄存 器 寻 址 
R = 指向 寄存 器 的 指令 地 址 字段 内 容 = x 
EA = 被 访问 位 置 的 实际 (有效 ) 地 址 
(X) = 存储 器 位 置 X 或 寄存 器 X 的 内 容 
表 11-1 列 出 了 每 种 寻 址 方式 所 进行 的 地 址 计算 。 
在 讨论 之 前 需要 说 明 两 点 。 首 先 ， 实际 上 所 有 
计算 机 结构 都 提供 不 止 一 种 寻 址 方式 。 这 也 就 提出 
一 个 问题 ， 处 理 器 如 何 确认 什么 样 的 寻 址 方式 正 被 
一 条 具体 指令 所 使 用 。 这 有 几 种 方法 。 通 常 是 不 同 
的 操作 码 使 用 不 同 的 寻 直 方式。 另外， 指令 格式 中 “| oo 
的 一 位 或 几 位 能 用 做 方式 字段 (mode field) ， 方 式 m 
字段 的 值 确定 使 用 哪 种 寻 址 方式 。 aa 
第 二 点 说 明 是 关于 有 效 地 址 (EA) 的 解释 。 图 11-1 寻 址 方式 
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在 没有 虚拟 存储 器 的 系统 中 ， 有 效 地 址 (effective address) 将 是 主 存 地 址 或 是 寄存 器 。 在 虚拟 存 
储 器 系统 中 ， 有 效 地 址 是 虚拟 地 址 或 是 寄存 器 。 把 虚拟 地 址 映射 到 物理 地 址 实际 上 是 内 存 管理 
单元 (MMU) 的 功能 ， 并 且 是 程序 员 不 可 见 的 。 


R111 基本 寻 址 方式 

















































方式 主要 优点 主要 缺点 
立即 寻 址 无 存储 器 访问 操作 数 幅 值 有 限 
直接 寻 址 EA=A 简单 地 址 范围 有 限 
间接 寻 址 EA=(A) 大 的 地 址 范围 多 重 存 储 器 访问 
寄存 器 寻 址 EA=R 无 存储 器 访问 地 址 范围 有 限 
寄存 器 间接 寻 址 EA =(R) 大 的 地 址 范围 额外 存储 器 访问 
偏 移 寻 址 EA=A+ (R) 灵活 复杂 
栈 寻 址 EA = 栈 顶 无 存储 器 访问 应 用 有 限 


11.1.1 立即 寻 址 


寻 址 的 最 简单 形式 是 立即 寻 址 〈immediate addressing) 。 在 这 种 方式 下 ， 操 作 数 实际 出 现在 

指令 中 : 
操作 数 = A 

这 种 方式 能 用 于 定义 和 使 用 常数 或 者 设置 变量 的 初始 值 。 一 般 地 ， 数 以 2 的 补 码 形 式 存 储 ， 
最 左 位 是 符号 。 当 操作 数 装 人 数据 寄存 器 时 ， 符 号 位 向 左 扩展 来 填充 数据 字 的 字 长 。 在 某 些 情况 
下 ， 立 即 二 进 制 值 被 当 作 无 符号 非 负 整 数 。 

立即 寻 址 的 优点 是 ， 除 了 取 指 令 之 外 ， 获 得 操作 数 不 要求 另 外 的 存储 器 访问 ， 于 是 节省 了 一 
个 存储 器 或 高 速 缓存 (cache) 周期 。 其 缺点 是 数 的 大 小 受 限 于 地 址 字段 的 长 度 ， 而 在 大 多 数 指 
令 集中 此 字段 长 度 与 字 长 度 相 比 是 比较 短 的 。 


11.1.2 ”直接 寻 址 


直接 寻 址 (direct addressing) 也 是 一 种 很 简单 的 寻 址 形式 ， 这 种 方式 下 地 址 字段 含有 操作 数 
的 有 效 地 址 : 
EA=A 
此 技术 在 早期 计算 机 中 是 很 普遍 的 ， 但 在 当代 计算 机 体系 结构 中 就 不 多 见 了 。 它 只 要 求 一 次 存 
储 器 访问 ， 而 且 不 需要 为 生成 地 址 的 专门 计算 。 正 如 前 面 所 述 ， 明 显 的 不 足 是 只 能 提供 有 限 的 地 
址 空间 。 


11.1.3 ”间接 寻 址 


直接 寻 址 的 问题 是 地 址 字段 的 长 度 通常 小 于 字 长 度 ， 这 样 寻 址 范围 就 很 有 限 。 一 个 解决 方 
法 是 ， 让 地 址 字段 指示 一 个 存储 器 字 地 址 ， 而 此 地 址 处 保存 有 操作 数 的 全 长 度 地 址 。 这 被 称 为 间 
接 寻 址 (indirect addressing): 

EA =(A) 

正如 前 面 所 说 明 的 ， 括 号 解释 成 “其 内 容 ” (content of) 。 这 种 方法 的 明显 优点 是 ， 对 于 入 
位 字 长 来 说 能 有 2” 个 地 址 可 用 。 缺 点 是 为 取 一 操作 数 ， 指 令 执 行 需要 两 次 访问 存储 器 ， 第 一 次 
为 得 到 地 址 ， 第 二 次 才 是 得 到 它 的 值 。 

虽然 能 被 寻 址 的 字 的 数目 现在 等 于 2”， 但 一 次 能 被 引用 的 不 同 有 效 地 址 数目 限制 到 2 ， 这 
里 的 天 是 地 址 字段 的 位 长 度 。 一 般 而 言 ， 这 并 不 是 一 个 严重 的 限制 ， 而 且 可 能 是 有 益 的 。 在 虚 
拟 存储 器 环境 中 ， 所 有 的 有 效 地 址 位 置 都 能 限定 放 到 任何 进程 的 第 0 页 内 。 因 为 指令 的 地 址 字段 
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通常 较 小 ， 自 然 会 形成 数目 不 多 且 数 值 不 大 的 直接 地 址 ， 这 些 地 址 对 应 的 存储 位 置 可 以 放 在 第 0 
页 中 (唯一 的 限制 是 页 的 大 小 必须 大 于 或 等 于 2 ) 。 当 一 个 进程 激活 时 ， 将 会 有 对 第 0 页 的 重复 访 
问 ， 这 将 使 它 保留 在 物理 存储 器 中 。 于 是 ， 一 次 间接 存储 器 访问 最 多 只 涉及 一 次 缺 页 而 不 是 两 次 。 
一 种 很 少 使 用 的 间接 寻 址 的 变 体 是 多 级 或 级 联 的 间接 寻 址 : 
这 种 情况 下 ， 全 字 地 址 中 有 一 个 间接 标志 位 (1) 。 若 此 位 是 0， 则 此 全 字 地 址 中 的 其 余 位 是 
有 效 地 址 EA。 若 工 位 是 1， 则 要 求 另 一 级 的 间接 。 这 种 方法 没什么 特别 的 好 处 ， 缺 点 是 为 取 一 操 
作 数 要 求 三 次 甚至 更 多 次 的 存储 器 访问 。 


11.1.4 寄存 器 寻 址 


寄存 器 寻 址 (register addressing) 类 似 于 直接 寻 址 。 唯 一 的 不 同 是 地 址 字段 指 的 是 寄存 器 而 

不 是 一 个 主 存 地 址 : 
EA=R 

举例 说 明 一 下 ， 假 设 指令 中 寄存 器 地 址 字段 的 值 是 5， 那 么 寄存 器 RS 就 是 所 指定 的 地 址 ， 
操作 数 的 值 就 是 RS 的 内 容 。 一 般 地 ， 引 用 寄存 器 的 地 址 字段 有 3 到 5 位 ， 因 此 能 访问 总 计 8 ~ 
32 个 通用 寄存 器 。 

寄存 器 寻 址 的 优点 ， 一 是 指令 中 仅 需 要 一 个 较 小 的 地 址 字段 ， 二 是 不 需要 存储 器 访问 。 正 如 
第 4 章 讨论 过 的 ， 对 CPU 内 部 寄存 器 存 取 的 时 间 是 远 小 于 主 存 存 取 时 间 的 。 寄 存 器 寻 址 的 缺点 
是 地 址 空间 十 分 有 限 。 

若 指令 集中 大 量 地 使 用 了 寄存 器 寻 址 ， 这 意味 着 CPU 寄存 器 将 被 大 量 使 用 。 因 为 寄存 器 数 
量 极其 有 限 〈 与 主 存 位置 相 比 ) ， 所 以 只 有 它们 能 得 到 有 效 使 用 的 应 用 才 有 意义 。 若 是 每 个 操作 
数 都 由 主 存 来 装 人 寄存 器 ， 操 作 一 次 后 又 送 回 主 存 ， 则 和 暂 存 这 些 内 容 实际 上 是 一 种 浪费 。 然 而 ， 
若是 留 在 寄存 器 中 的 操作 数 能 为 多 个 操作 所 使 用 ， 则 实现 了 有 效 的 节省 ， 例 如 计算 的 中 间 结 果 。 
具体 地 ， 假 设 2 的 补 码 数 的 乘法 是 以 软件 实现 的 ,那么 ， 图 9-12 流程 图 中 标记 为 A 的 位 置 是 要 
多 次 访问 的 ， 因 此 应 以 寄存 器 而 不 是 主 存 位 置 来 实现 。 

哪些 值 应 保留 在 寄存 器 中 ， 哪 些 值 应 存 于 存储 器 ， 这 个 判决 应 由 程序 员 或 编译 器 完成 。 大 多 
数 当代 CPU 都 使 用 多 个 通用 寄存 器 ， 如 何 有 效 地 使 用 它们 就 成 为 汇编 语言 编程 人 员 (例如 ， 编 
译 器 的 编写 者 ) 的 责任 。 


11.1.5 ”寄存 器 间接 寻 址 


正如 寄存 器 寻 址 类 似 于 直接 寻 址 一 样 ， 寄 存 器 间接 寻 址 (register indirect addressing) 也 类 似 
于 间接 寻 址 。 两 种 情况 的 唯一 不 同 是 ， 地 址 字段 指 的 是 存储 位 置 还 是 寄存 器 。 于 是 ， 对 于 寄存 器 
间接 地 址 ， 
EA= (R) 
寄存 器 间接 寻 址 的 优点 和 不 足 基本 上 与 间接 寻 址 类 似 。 二 者 的 地 址 空间 限制 《有 限 的 地 址 
范围 ) 都 通过 将 地 址 字段 指向 一 个 保存 有 全 长 地 址 的 位 置 而 被 克服 了 。 另 外 ， 寄 存 器 间接 寻 址 
比 间 接 寻 址 少 一 次 存储 器 访问 。 


11.1.6 ” 偏 移 寻 址 


一 种 强 有 力 的 寻 址 方式 是 直接 寻 址 和 寄存 器 间接 寻 址 能 力 的 结合 。 根 据 上 下 文 的 不 同 ， 它 
有 几 种 名 称 ， 但 基本 的 机 制 是 相同 的 。 我 们 将 它 称 为 偏 移 寻 址 (displacement addressing) : 
EA=A+(R) 
偏 移 寻 址 要 求 指令 有 两 个 地 址 字段 ， 至 少 其 中 一 个 是 显 式 的 。 保 存在 一 个 地 址 字段 中 的 值 
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(fH = A) 直 接 被 使 用 。 男 一 个 地 址 字段 ,或 者 一 个 基于 操作 码 的 隐 含 引用 ， 指 向 一 个 寄存 器 。 此 
寄存 器 的 内 容 加 上 A 产生 有 效 地 址 。 

我 们 将 介绍 最 通用 的 三 种 偏 移 寻 址 : 

© 相对 寻 址 

o 基 址 寄存 器 寻 址 

e 变 址 

1. 相对 寻 址 

对 于 相对 寻 址 ， 隐 含 引 用 的 寄存 器 是 程序 计数 器 (PC) ， 因 此 也 叫 PC 相对 寻 址 。 即 当前 PC 
的 值 (此 指令 后 续 的 下 一 条 指令 的 地 址 ) ， 加 上 地 址 字段 的 值 (A) ,产生 有 效 地 址 。 一 般 地 ， 
地 址 字段 的 值 在 这 种 操作 下 被 看 成 2 的 补 码 数 的 值 。 于 是 ， 有 效 地 址 是 对 当前 指令 地 址 的 一 个 前 
后 范围 的 偏 移 。 

相对 寻 址 利用 了 第 4 章 和 第 8 章 讨 论 过 的 局 部 性 概念 。 若 大 多 数 存 储 器 访问 都 相对 靠近 正在 
执行 的 指令 ， 则 使 用 相对 寻 址 可 节省 指令 中 的 地 址 位 数 。 

2. 基 址 寄存 器 寻 址 

对 于 这 种 寻 址 方式 ， 其 解释 如 下 : 被 引用 的 寄存 器 含有 一 个 存储 器 地 址 ， 地 址 字段 含有 一 个 
相对 于 那个 地 址 的 偏 移 量 (通常 是 无 符号 整数 表示 ) 。 寄 存 器 引用 可 以 是 显 式 的 ， 也 可 以 是 隐 式 的 。 

基 址 寄存 器 寻 址 也 利用 了 存储 器 访问 的 局 部 性 。 用 它 来 实现 第 8 章 讨论 过 的 段 是 一 种 方便 的 
方式 。 在 某 些 方案 中 ， 采 用 了 一 个 单一 的 段 基 址 寄存 器 ， 并 且 是 隐 含 使 用 。 而 在 其 他 情况 中 ， 程 
序 员 可 选取 一 个 寄存 器 来 保存 段 的 基地 址 ， 并 且 指 令 对 它 必 须 显 式 引用 。 在 后 一 种 情况 下 ， 若 地 
址 字段 的 位 长 度 是 K， 并 且 可 选取 的 寄存 器 有 NN 个 , 则 一 条 指令 能 访问 Wx2 个 字 的 域 中 的 任 一 字 。 

3. 变 址 

对 于 变 址 ， 典 型 的 解释 如 下 : 指令 地 址 字段 引用 一 个 主 存 地 址 ， 被 引用 的 寄存 器 含有 对 于 那 
个 地 址 的 一 个 正 的 偏 移 量 。 注 意 ， 这 种 用 法 正好 和 基 址 寄存 器 寻 址 方式 的 解释 相反 。 当 然 ， 两 者 
的 区 别 并 不 只 是 一 个 用 法 解释 的 问题 。 因 为 变 址 中 的 地 址 字段 将 被 看 作 一 个 存储 器 地 址 ， 所 以 
该 地 址 字段 通常 要 比 基 址 寄存 器 指令 中 的 地 址 字段 包含 更 多 的 位 。 还 有 ， 我 们 将 会 看 到 对 于 变 
址 将 会 有 某 些 改进 ， 而 这 些 改进 不 能 用 于 基 址 寄存 器 的 方式 。 不 过 无 论 如 何 ， 基 址 寄存 器 寻 址 和 
变 址 二 者 的 EA 计算 方法 是 相同 的 ， 而 且 两 种 情况 下 的 寄存 器 引用 都 是 有 时 是 显 式 ， 有 时 是 隐 式 
的 (对 于 不 同类 型 的 CPU ) 。 

变 址 的 一 个 重要 用 途 是 为 重复 操作 的 完成 提供 一 种 高 效 机 制 。 例 如 ， 在 位 置 A 处 开始 有 一 
数值 列表 ， 我 们 准备 为 表 的 每 个 元 素 加 1。 这 需要 取出 表 中 每 个 数值 ， 对 它 加 1， 然 后 再 存 回 。 
需要 的 有 效 地 址 序列 是 A，A +1，A+2，…， 直 至 表 的 最 后 一 个 位 置 。 使 用 变 址 ， 这 很 容易 完 
成 。 将 值 A 存 人 指令 的 地 址 字段 ， 并 选取 一 个 寄存 器 ， 叫 做 变 址 寄存 器 (index register) ， 初 始 
化 为 0。 每 次 操作 之 后 ， 变 址 寄存 器 加 1。 

因为 变 址 寄存 器 普遍 用 于 这 种 重复 任务 ， 故 一 般 都 需要 在 对 它 每 次 引用 之 后 将 它 递增 或 递 
减 。 某 些 系 统 是 自动 完成 这 种 递增 、 递 减 的 操作 ， 并 将 其 作为 同一 指令 周期 的 一 部 分 。 这 称 为 自 
动 变 址 (autoindexing) 。 若 某 个 寄存 器 专门 用 于 变 址 ， 则 自动 变 址 能 隐 含 地 自动 启动 。 若 使 用 通 
用 寄存 器 作为 变 址 寄存 器 ， 则 自动 变 址 操作 需要 用 指令 中 的 某 一 位 来 通知 。 采 用 递增 的 自动 变 
址 可 描述 成 如 下 : 

EA=A+(R) 
(R)<(R) +1 

某 些 机 器 既 提 供 了 间接 寻 址 又 提供 了 变 址 ， 在 同一 指令 中 使 用 两 种 寻 址 方式 是 准许 的 。 这 
有 两 种 可 能 的 方式 : 在 间接 寻 址 之 前 或 之 后 进行 变 址 寻 址 。 

如 果 在 间接 寻 址 之 后 进行 变 址 ， 这 称 为 后 变 址 (post-indexing ; 
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EA=(A)+(R) 
首先 ， 地 址 字段 的 内 容 用 来 访问 一 个 存储 器 位 置 取 得 直接 地 址 。 然 后 ， 这 个 地 址 被 寄存 器 值 
变 址 。 对 于 存 取 若干 具有 固定 格式 数据 块 中 的 某 一 个 ， 这 种 技术 是 很 有 用 的 。 例 如 ， 在 第 8 章 曾 
讨论 过 ， 操 作 系 统 需要 为 每 个 进程 访问 进程 控制 块 。 不 管 当前 正在 操作 哪个 块 ， 完 成 的 操作 都 是 
相同 的 。 于 是 ,访问 这 些 块 的 指令 中 的 那些 地 址 C= A) 可 以 都 指向 一 个 保存 有 一 个 可 变 指 针 
的 位 置 ， 此 可 变 指 针 指向 具体 进程 控制 块 的 起 点 。 变 址 寄存 器 中 保存 有 块 内 偏 移 量 。 
前 变 址 (pre-indexing) 是 变 址 完成 在 间接 寻 址 之 前 : 
EA=(A+(R)) 
像 简 单 变 址 一 样 ， 完 成 一 次 地 址 计算 ， 然 而 所 计算 出 的 地 址 含有 的 不 是 操作 数 而 是 操作 数 的 地 
址 。 这 种 技术 使 用 的 一 个 例子 是 构建 多 跳 转 表 (multiway branch table) 。 在 程序 的 某 一 点 上 ， 可 
能 要 根据 一 些 条 件 转移 到 几 个 位 置 中 的 某 一 个 。 可 以 用 位 置 A 作为 起 点 建立 一 个 地 址 表 。 通 过 
变 址 到 这 个 表 中 ,来 找到 所 要 求 的 位 置 。 
正常 情况 下 ， 指 令 集 将 不 会 同时 包括 前 变 址 和 后 变 址 。 


11.1.7 栈 寻 址 


最 后 考虑 栈 寻 址 (stack addressing) 方式 。 正 如 附录 9A 中 所 定义 的 ， 栈 是 一 种 位 置 的 线性 
序列 。 它 有 时 称 为 下 推 表 (pushdown list) 或 后 进 先 出 队列 (last-in-first-out queue) 。 栈 是 一 个 预 
留 的 位 置 块 。 数 据 项 是 被 陆续 加 到 栈 顶 ， 因 此 在 任 一 给 定时 刻 ， 栈 对 应 的 位 置 块 是 部 分 被 填充 
的 。 与 栈 相关 的 是 一 个 指针 ， 它 的 值 是 栈 顶 地 址 。 或 者 ， 当 栈 项 的 两 个 元 素 已 在 CPU 寄存 器 内 ， 
此 时 栈 指针 指向 栈 项 的 第 三 个 元 素 (参见 图 10-14b) 。 栈 指针 保存 在 寄存 器 中 ， 于 是 对 存储 器 中 
栈 位 置 的 访问 实际 上 是 一 种 寄存 器 间接 寻 址 方式 。 

栈 寻 址 方式 是 一 种 隐 含 寻 址 形式 。 机 器 指令 不 需要 指明 存储 器 引用 ， 而 是 隐 含 地 指示 操作 
发 生 在 栈 顶 。 


11.2 x86 和 ARM 寻 址 方式 


11.2.1 x86 寻 址 方式 

回顾 图 8-21 ，x86 的 地 址 转换 机 制 产生 一 个 地 址 ， 称 为 虚拟 地 址 或 有 效 地 址 ， 它 是 一 个 段 内 
位 移 (offset)。 段 的 起 始 地 址 和 这 个 有 效 地 址 之 和 就 构成 了 一 个 线性 地 址 (linear address) 。 如 果 
采用 了 分 页 ， 这 个 线性 地 址 必须 通过 一 个 页 转换 机 制 来 生成 一 个 物理 地 址 。 下 面 暂 不 管 这 最 后 
一 步 ， 因 为 它 对 于 指令 集 和 程序 员 都 是 透明 的 。 

x86 配备 了 各 种 寻 址 方式 ， 目 的 是 使 得 高 级 语言 能 有 效 地 执行 。 图 11-2 指出 了 所 涉及 的 硬件 
逻辑 。 被 访问 的 对 象 是 段 ， 它 由 段 寄 存 器 所 确定 。 有 6 个 段 寄存 器 ， 具 体 的 访问 使 用 哪 一 个 段 寄 
存 器 ， 这 取决 于 执行 的 上 下 文 和 指令 。 每 个 段 寄 存 器 保存 一 个 指向 段 描 述 符 表 (segment descrip- 
tor table) 的 索引 ( 见 图 8-20)， 段 描述 符 表 保存 了 各 个 段 的 起 始 地 址 。 每 个 段 寄存 器 (用户 可 
见 的 ) 与 一 个 段 描述 符 寄存 器 (程序 员 不 可 见 的 ) 关联 ， 段 描述 符 寄存 器 记录 了 此 段 的 访问 权 
限 ， 以 及 段 的 起 始 地 址 和 段 的 界限 (BEKKE). 。 此 外 ， 还 有 两 个 寄存 器 ( 基 址 寄存 器 和 变 址 寄 
存 器 ) ， 可 用 于 构造 地 址 。 

表 11-2 列 出 了 x86 的 寻 址 方式 ， 让 我 们 依 序 考察 每 一 种 方式 。 

对 于 立即 方式 (immediate mode) ， 操 作 数 被 包含 在 指令 中 。 操 作 数 可 以 是 字 节 、 字 或 双 字 的 
数据 。 

对 于 寄存 器 操作 数 方式 (register operand mode) ， 操 作 数 位 于 寄存 器 中 。 对 于 像 数据 传送 、 
算术 和 人 逻辑 指令 这 样 的 一 般 指 令 ， 操作 数 可 以 是 一 个 32 位 通用 寄存 器 (EAX, EBX, ECX, 
EDX, ESI, EDI, ESP 和 EBP) 、 一 个 16 位 通用 寄存 器 (AX, BX, CX, DX, SI, DI, SP 和 
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BP) ， 或 是 一 个 8 位 通用 寄存 器 (AH, BH, CH, DH, AL, BL, CLA DL), GAVIA at 
(CS、DS、ES、SS、FS 和 GS) 的 一 些 指 令 。 






偏 移 寻 址 (在 指 
令 中 ， 0 位 、 8 
位 或 32 位 ) 





段 基 址 








线性 地 址 


图 11-2 x86 寻 址 方式 的 计算 


表 11-2 x86 寻 址 方式 




















































寄存 器 操作 数 寻 址 LA=R 

偏 移 量 寻 址 LA=(SR) +A 

基 址 寻 址 LA=(SR) +(B) 

基 址 带 偏 移 量 寻 址 LA=(SR) +(B) +A 

比例 变 址 带 偏 移 量 寻 址 LA=(SR) +(I)xS+A 

基 址 带 变 址 和 偏 移 量 寻 址 LA=(SR) +(B) +(I)+A 
基 址 带 比例 变 址 和 偏 移 寻 址 LA=(SR) +(I)xS +(B)+A 








相对 寻 址 


注 : LA = 线性 地 址 
(X) =X 的 内 容 
SR = 段 寄 存 器 
PC = 程序 计数 器 
A = 指令 中 地 址 字段 的 内 容 
R = 寄存 器 
B = 基 址 寄存 器 
I= 变 址 寄存 器 
S = 比例 因子 


LA=(PC) +A 


其 余 的 寻 址 方式 引用 的 是 存储 器 中 的 位 置 ， 通 过 指定 包含 有 此 位 置 的 段 和 距离 段 起 点 的 位 
移 来 说 明 存储 器 位 置 。 某 些 情 况 下 ， 段 是 显 式 指定 的 。 在 其 他 情况 下 ， 段 通过 一 个 简单 的 段 默认 
指派 规则 来 隐 式 指定 。 

在 偏 移 量 方式 (displacement mode) 中 ， 指 令 中 的 8 位 、16 位 或 32 位 偏 移 量 就 是 操作 数 距 段 起 点 
的 位 移 。 偏 移 量 寻 址 方式 只 在 少数 几 种 机 器 中 能 找到 ， 因 为 它 会 导致 较 长 的 指令 。 在 x86 机 器 中 ， 偶 
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移 量 值 可 长 达 32 位 ， 这 就 使 指令 多 达 6 字 节 长 。 偏 移 量 寻 址 方式 对 于 访问 全 局 变量 很 有 用 。 
剩 下 的 寻 址 方式 是 指令 的 地 址 部 分 告诉 处 理 器 到 何 处 去 找 地 址 ， 因 此 ， 它 们 是 间接 方式 。 基 
址 方式 (base mode) 指定 一 个 8 位 、16 位 或 32 位 的 寄存 器 ， 其 中 包含 有 效 地 址 。 这 等 同 于 我 们 
已 说 过 的 寄存 器 间接 寻 址 。 
在 基 址 带 偏 移 量 方式 (base with displacement mode) 中 ， 指 令 包 括 一 个 将 被 加 到 基 址 寄存 器 
的 偏 移 量 ， 基 址 寄存 器 可 是 任意 一 个 通用 寄存 器 。 这 种 方式 的 使 用 例子 有 : 
。 编译 器 用 来 指向 一 个 局 部 变量 域 的 开始 。 例 如 ， 基 址 寄存 器 能 用 来 指向 栈 帧 的 起 点 ， 而 
栈 帧 含有 相应 过 程 的 局 部 变量 。 
© 当 数 组 元 素 大 小 不 是 1、2、4 或 8 字 节 ， 从 而 不 能 使 用 变 址 寄存 器 来 索引 时 ， 可 用 这 种 
方式 来 索引 数组 。 此 时 ， 偏 移 量 指向 数组 起 点 ， 基 址 寄存 器 保存 指定 数组 元 素 距 数组 起 
点 的 位 移 。 
e 用 于 访问 记录 中 的 字段 ， 基 址 寄存 器 指向 记录 的 起 点 ， 而 侦 移 量 是 到 此 字段 的 位 移 。 
在 比例 变 址 带 偏 移 量 方式 (scaled index with displacement mode) 中 ， 指 令 包 括 一 个 将 加 到 变 
址 寄存 器 的 偏 移 量 。 除 ESP 通常 用 于 栈 处 理 之 外 ， 其 他 任何 通用 寄存 器 都 可 以 作为 变 址 寄存 器 。 
计算 有 效 地 址 时 ， 变 址 寄存 器 的 内 容 乘 以 1、2、4 或 8 的 比例 因子 ， 然 后 加 上 偏 移 量 。 对 于 索引 
一 个 数组 ， 这 种 方式 是 很 方便 的 。 比 例 因子 为 2 能 用 于 一 个 16 位 整数 数组 ， 比 例 因子 为 4 能 用 
于 32 位 整数 或 浮 点 数 。 最 后 ， 比 例 因 子 为 8 能 用 于 一 个 双 精 度 浮 点 数 的 数组 。 
基 址 带 变 址 和 偏 移 量 方式 (base with index and displacement mode) 是 将 基 址 寄存 器 内 容 、 变 
址 寄存 器 内 容 和 偏 移 量 三 者 求 和 ， 得 到 有 效 地 址 。 同 样 ， 除 ESP 通常 用 于 栈 处 理 之 外 ， 其 他 任 
何 通用 寄存 器 都 可 以 作为 基 址 和 变 址 寄存 器 。 作 为 一 个 例子 ， 这 种 寻 址 方式 可 以 用 于 存 取 栈 帧 
中 的 局 部 数组 。 除 此 之 外 ， 它 也 可 以 用 于 寻 址 二 维 数组 ， 此 时 偏 移 量 指向 数组 的 起 点 ， 基 址 和 变 
址 寄存 器 分 别处 理 二 维 数组 中 一 个 维 的 地 址 。 
基 址 的 比例 变 址 带 偏 移 量 方式 (based scaled index with displacement mode) 是 将 变 址 寄存 器 
内 容 乘 以 比例 因子 、 基 址 寄存 器 内 容 和 偏 移 量 三 者 求 和 。 者 一 个 数组 存 于 栈 帧 中 ， 这 种 寻 址 方式 
是 很 有 用 的 ， 此 时 数组 元 素 可 以 是 2、4 或 8 字 节 长 。 这 种 方式 亦 能 对 数组 元 素 是 2、4 或 8 字 节 
长 的 二 维 数组 提供 有 效 的 索引 。 
最 后 ， 相 对 寻 址 (relative addressing) 能 用 于 控制 转移 指令 。 一 个 偏 移 量 加 到 指向 下 一 条 指 
令 的 程序 计数 器 的 值 上 。 此 时 ， 偏 移 量 被 看 作 是 一 个 有 符号 的 字 节 、 字 或 双 字 值 ， 于 是 此 值 能 增 
加 或 减少 程序 计数 器 中 的 地 址 。 





11.2.2 ARM 寻 址 方式 


不 像 CISC 机 器 ，RISC 机 器 一 般 都 普遍 采用 简单 和 相对 直截了当 的 一 组 寻 址 方式 。 不 过 ARM 与 这 
个 传统 有 些 不 同 ， 它 有 相对 比较 丰富 的 寻 址 方式 。 这 些 寻 址 方式 基本 是 根据 指令 类 型 区 分 的 。 
1. 装载 /保存 寻 址 
ARM 中 只 有 装载 /保存 (Load/Store) 指令 能 访问 内 存 。 内 存 地 址 通常 由 一 个 基 址 寄存 器 加 
上 一 个 偏 移 量 来 得 到 。 考 虑 到 变 址 的 情况 ， 则 可 分 为 3 种 不 同方 式 ( 见 图 11-3), 
© Fi (offset): 对 于 这 种 寻 址 方式 ， 变 址 不 被 使 用 。 内 存 地 址 通过 基 址 寄存 器 的 值 加 上 
或 减 去 偏 移 量 而 得 到 。 例 如 ， 图 11-3a 显示 了 采用 这 种 寻 址 方式 的 汇编 语言 指令 sree ro, 
[r1, 机 2]。 这 条 指令 保存 一 个 字 节 到 内 存 中 。 在 这 个 例子 中 ， 基 址 在 寄存 器 rl 中 ， 偏 移 
量 是 一 个 立即 值 ， 十 进 制 数 12。 得 到 的 地 址 〈 基 址 加 上 偏 移 量 ) 就 是 上 的 最 低 有 效 字 节 
所 要 保存 数据 的 位 置 。 





O 如 同 讨论 x86 的 寻 址 方式 时 一 样 ， 我 们 在 接 下 来 的 讨论 中 也 忽略 从 虚拟 地 址 到 物理 地 址 的 转换 。 
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STRB r0, [r1, #12] 
0x20C 


原 基 址 
寄存 器 





STRB r0, [r1,#12]! 








JAH 
图 11-3 ARM 变 址 方式 


e 前 变 址 (preindex) : 内 存 地 址 的 计算 与 上 面 偏 移 寻 址 的 方式 一 样 。 然 后 ， 计 算得 到 的 内 
存 地 址 被 写 回 到 基 址 寄存 器 。 也 就 是 说 ， 基 址 寄存 器 的 值 增 加 或 减少 了 一 个 偏 移 量 的 值 。 
图 11-3b 显示 了 采用 这 种 寻 址 方式 的 汇编 语言 指令 STRB vo, (ri, #21 HARMS “1” 
表示 要 进行 前 变 址 。 
后 变 址 (postindex) : 内 存 地 址 就 是 基 址 寄存 器 的 值 。 然 后 ， 偏 移 量 被 加 到 基 址 寄存 器 值 
中 ， 或 从 中 减 去 ， 结 果 再 保存 回 基 址 寄存 器 。 图 11-3c 显示 了 采用 这 种 寻 址 方式 的 汇编 语 
言 指 令 STRB r0, [r1], #12, 

可 以 注意 到 ，ARM 中 的 基 址 寄存 器 在 前 变 址 和 后 变 址 寻 址 方式 时 ， 更 像 一 个 变 址 寄存 器 。 
偏 移 量 可 以 是 一 个 存 于 指令 中 的 立即 数 ， 也 可 以 是 另 一 个 寄存 器 的 值 。 如 果 偏 移 量 在 寄存 器 中 ， 
那么 就 可 以 获得 一 个 有 用 的 特性 : 带 比例 的 寄存 器 寻 址 。 在 偏 移 量 寄存 器 中 保存 的 值 可 以 通过 
移 位 操作 按 比例 放大 或 缩小 。 移 位 操作 可 以 是 逻辑 左 移 ， 逻 辑 右 移 ， 算 术 右 移 ， 循 环 右 移 ， 以 及 
扩展 的 循环 右 移 (在 循环 移 位 中 包括 进位 位 ) 。 移 位 的 位 数 可 以 通过 指令 中 的 立即 值 给 出 。 

2. 数据 处 理 指 令 的 寻 址 

数据 处 理 指令 使 用 寄存 器 寻 址 ， 或 者 寄存 器 和 立即 数 混 合 寻 址 。 采 用 寄存 器 寻 址 时 ， 操 作 数 
寄存 器 中 提供 的 值 可 以 采用 上 文 介 绍 的 5 种 移 位 操作 ， 来 进行 按 比例 的 放大 和 缩小 。 

3. 分 支 指令 

分 支 指令 只 有 一 种 寻 址 方式 ， 立 即 寻 址 。 分 支 指令 中 带 有 一 个 24 位 的 立即 值 。 在 地 址 计算 
时 ， 这 个 立即 值 被 左 移 2 位 ， 使 得 地 址 对 齐 到 32 位 字 的 边界 。 这 样 ，24 位 的 立即 值 可 以 产生 26 
位 的 地 址 偏 移 量 ， 相 对 于 程序 计数 器 来 说 ， 有 效 地 址 的 范围 为 +32MB。 

4. 多 装 /多 存 寻 址 

多 装 (Load Multiple) 指令 从 内 存 装载 多 个 数据 到 多 个 (可 能 全 部 ) 寄存 器 。 多 存 (Store 
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Multiple) 指令 把 多 个 〈 可 能 全 部 ) 寄存 器 的 内 容 保存 到 内 存 中 。 用 作 装 载 或 保存 的 寄存 器 列表 
由 扫 信 中 个 16 faa EAR 其 中 每 一 位 ”ip rotori) 

应 16 个 寄存 器 中 的 一 个 。 多 装 和 多 存 指 令 STM rl10,{r0,r1,r4} 
Sirhan RNAI, BER uo Ë 
小 的 寄存 器 对 应 最 低 的 内 存 地 址 ， 编 号 最 大 的 PE Ro 
寄存 器 对 应 最 高 的 内 存 地 址 。 内 存 地 址 的 产生 
有 4 种 方式 (OLA 11-4): 后 递增 (increment 
after) 、 先 递增 (increment before )、 后 递减 
decrement after) , FEl decrement before ) 。 
ieee thee, Y ae See 
存 器 的 值 从 这 个 地 址 装载 ,或 向 这 个 地 址 存 人 , 方向 可 以 按 字 位 置 上 升 (递增 ) ， 或 下 降 ( 递 
减 ) 。 递 增 或 递减 可 以 发 生 在 第 一 个 值 装载 或 保存 完 之 后 或 之 前 。 

这 些 指 令 对 于 数据 块 装载 和 保存 、 栈 操作 以 及 过 程 退 出 操作 都 是 很 有 用 的 。 


11.3 ”指令 格式 

指令 格式 通过 它 的 各 个 构成 部 分 来 定义 指令 的 位 安排 。 一 个 指令 格式 必须 包括 一 个 操作 码 ， 
以 及 隐 式 或 显 式 的 、 零 个 或 多 个 操作 数 。 每 个 显 式 操作 数 使 用 11. 1 节 描 述 的 某 种 寻 址 方式 来 引 
用 。 指 令 格式 必须 显 式 或 隐 式 地 为 每 个 操作 数 指定 其 寻 址 方式 。 大 多 数 指令 集 使 用 不 止 一 种 指 
令 格 式 。 

指令 格式 设计 是 一 种 复杂 的 技术 , 已 有 的 指令 格式 种 类 之 繁多 令 人 吃惊 。 本 节 考 察 关键 的 
设计 出 发 点 ， 通 过 简要 地 查看 某 些 设计 来 说 明 这 些 出 发 点 。 然 后 ， 再 详细 考察 x86 和 ARM 的 
做 法 。 


11.3.1 指令 长 度 


设计 人 员 面 对 的 最 基本 设计 出 发 点 ， 是 指令 格式 的 长 度 。 这 个 决定 与 存储 器 尺寸 、 存 储 器 组 
织 、 总 线 结构 、CPU 复杂 程度 和 CPU 速度 等 相互 影响 。 它 决定 了 汇编 语言 编程 人 员 所 看 到 的 机 
器 指令 的 丰富 性 和 灵活 程度 。 

此 时 最 明显 的 权衡 考虑 是 在 强 有 力 的 指令 清单 和 必须 节省 空间 之 间 进行 。 编 程 人 员 希 望 更 
多 的 操作 码 、 更 多 的 操作 数 、 更 多 的 寻 址 方式 和 更 大 的 地 址 范围 。 更 多 的 操作 码 和 更 多 的 操作 数 
可 使 编程 人 员 的 日 子 更 好 过 ， 他 们 能 写 出 较 短 的 程序 来 完成 给 定 的 任务 。 类 似 地 ， 更 多 的 寻 址 方 
式 可 给 编程 人 员 在 实现 某 些 像 表 处 理 和 跳 转 这 样 的 功能 时 有 更 大 的 灵活 度 。 还 有 ， 随 着 主 存 容 
量 的 增加 和 虚拟 存储 器 的 使 用 ， 编 程 人 员 自 然 希望 能 寻 址 更 大 的 范围 。 所 有 这 些 事情 (操作 码 、 
操作 数 、 寻 址 方式 和 地 址 范围 ) 都 需要 更 多 指令 的 位 ， 并 使 指令 长 度 趋向 更 长 的 方向 。 但 过 长 
的 指令 长 度 将 是 浪费 。 一 个 64 位 指令 占据 32 位 指令 的 两 倍 空间 ,但 很 可 能 功能 没有 两 倍 那 
样 多 。 

除了 这 个 基本 权衡 之 外 ,还 有 其 他 的 考虑 。 指 令 长 度 或 者 应 该 等 于 存储 器 的 传送 长 度 (在 
总 线 系统 中 ， 是 数据 总 线 宽度 ) ， 或 者 这 两 个 值 其 中 一 个 是 男 一 个 的 整数 倍 。 否 则 ， 会 在 取 指 周 
期 得 不 到 整齐 数目 的 指令 。 一 个 相关 考虑 是 存储 器 传送 速度 。 这 个 速度 的 提高 并 不 与 处 理 器 速 
度 提 高 保持 一 致 。 于 是 ， 若 处 理 器 执行 指令 的 速度 快 于 取 指 令 的 速度 ， 则 存储 器 传送 就 变 成 一 个 
瓶 贷 。 这 个 问题 的 一 种 解决 方法 是 使 用 cache (参见 4.3 节 )。 另 一 种 方法 是 使 用 较 短 的 指令 。 这 
样 ，16 位 指令 能 以 32 位 指令 的 两 倍速 率 来 取 指 ， 但 执行 速度 可 能 不 会 是 两 倍 那样 快 。 

一 个 看 起 来 有 些 平凡 的 但 依然 重要 的 特征 是 ， 指 令 长 度 应 当 是 字符 长 度 (通常 是 8 位 ) 或 
定点 数 长 度 的 整数 倍 。 为 表明 这 一 特征 ， 人 们 使 用 了 一 个 不 幸 被 含混 定义 的 名 词 “ 字 ” (word) 


递增 ve 后 递减 先 递减 
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[FRAI 83 ] 。 在 某 种 意义 上 ， 字 的 长 度 是 存储 器 组 织 的 “自然 ”单位 。 字 的 长 度 通常 也 就 确定 了 
定点 数 的 长 度 〈 一 般 二 者 是 相等 的 ) 。 字 的 长 度 一 般 也 是 等 于 ， 或 至 少 整 齐 地 相对 于 存储 器 传送 
的 宽度 。 因 为 数据 的 普遍 形式 是 字符 数据 ， 我 们 希望 一 个 字 能 保存 整数 倍 的 字符 。 否 则 ， 当 存储 
多 个 字符 时 每 个 字 会 有 浪费 的 位 ， 或 者 一 个 字符 必须 跨越 字 的 边界 。 说 明 其 重要 性 的 一 个 例子 
是 ， 当 IBM 推出 System/360 并 打算 使 用 8 位 字符 时 ， 它 毅然 做 出 转向 的 决定 ， 由 700/7000 系列 
的 36 位 的 科学 计算 体系 结构 改 为 32 位 结构 。 


11.3.2 ”位 的 分 配 


我 们 已 经 讨论 了 影响 指令 格式 长 度 确定 的 某 些 因素 。 一 个 同样 困难 的 设计 出 发 点 是 如 何 分 
配 指令 中 的 位 ， 这 个 问题 的 权衡 考虑 是 复杂 的 。 

对 于 一 个 给 定 的 指令 长 度 ， 显 然 在 操作 码 数目 和 寻 址 能 力 之 间 有 一 个 权衡 考虑 的 问题 。 越 
多 的 操作 码 明显 地 意味 着 操作 码 字段 要 有 更 多 的 位 ， 这 就 减少 了 寻 址 可 用 的 位 数 。 对 于 这 种 折 
中 考虑 有 一 个 有 趣 的 改进 ， 是 使 用 变 长 的 操作 码 。 按 照 这 种 方法 ， 有 一 个 最 小 操作 码 长 度 ， 但 是 
对 于 某 些 操作 码 ， 可 通过 使 用 指令 附加 位 的 方法 来 指定 附加 的 操作 。 对 于 一 个 固定 长 度 的 指令 
来 说 ， 就 使 留 给 寻 址 使 用 的 位 减少 了 。 于 是 ， 这 种 方法 只 适用 于 要 求 较 少 操作 数 和 (或 ) AK 
强 的 寻 址 方式 的 指令 。 

下 面 一 些 相 互 关联 的 因素 ， 在 确定 如 何 使 用 寻 址 位 时 是 需要 考虑 的 。 

e 寻 址 方式 的 数目 : 有 时 ， 一 种 寻 址 方式 能 隐 含 指定 ， 例 如 ， 某 些 操 作 码 会 总 是 使 用 变 址 。 

其 他 情况 下 ， 寻 址 方式 必须 是 显 式 指定 的 ， 这 将 需要 一 位 或 多 位 的 寻 址 方式 位 。 

。 操作 数 数目 : 我 们 已 看 到 过 (例如 ， 图 10-3 ) ， 操 作 数 少 会 使 程序 变 长 而 且 难 于 编写 。 当 
今 的 机 器 上 的 典型 指令 都 提供 两 个 操作 数 ， 每 个 操作 数 可 能 都 要 求 有 自己 的 寻 址 方式 指 
示 位 ， 或 者 限制 只 允许 两 个 操作 数 其 中 一 个 使 用 寻 址 方式 指示 位 。 
寄存 器 与 存储 器 比较 : 一 个 机 器 必须 有 寄存 器 ， 这 样 数据 才能 装 入 到 CPU 进行 处 理 。 对 
于 只 有 一 个 单一 的 用 户 可 见 的 寄存 器 〈 通 常 叫做 累加 器 ) ， 一 个 操作 数 的 地 址 是 隐 含 的 
因而 不 占用 指令 位 。 然 而 ,单一 寄存 器 的 编程 很 糠 手 ， 而 且 要 求 较 多 的 指令 。 尽 管 是 有 
多 个 寄存 器 ， 也 只 需要 较 少 的 位 来 指定 寄存 器 。 能 用 于 操作 数 引 用 的 寄存 器 越 多 ， 指 令 
需要 的 位 数 越 少 。 多 项 研究 结果 都 指出 ， 总 计 8 到 32 个 用 户 可 见 寄存 器 是 比较 合适 的 
[LUND77，HUCK83 ] 。 大 多 数 当代 处 理 器 体系 结构 至 少 有 32 个 寄存 器 。 
寄存 器 组 的 数目 : 大 多 数 当 代 机 器 只 有 一 组 通用 寄存 器 ， 通 常 是 32 个 或 更 多 寄存 器 。 这 
些 寄存 器 既 能 用 于 保存 数据 ， 也 能 用 于 保存 偏 移 寻 址 方式 的 地 址 。 包 括 x86 在 内 的 一 些 
体系 结构 具有 两 个 或 多 个 专用 寄存 器 组 〈 像 数据 和 偏 移 量 ) 。 这 种 方法 的 优点 之 一 是 ， 
对 于 固定 数目 的 寄存 器 ， 功 能 上 的 分 开 将 使 指令 只 需 较 少 的 位 数 。 例 如 ， 有 两 个 8 寄存 
all, Atte 3 位 来 标识 一 个 寄存 器 ; 操作 码 将 隐 式 地 确定 哪 一 组 寄存 器 被 引用 。 

地 址 范围 : 对 于 引用 内 存 位 置 的 地 址 来 说 ， 地 址 范围 与 指令 的 地 址 位 数 有 关 。 因 为 指令 
中 地 址 位 数 严 重 受 到 限制 ， 所 以 很 少 使 用 直接 寻 址 。 使 用 偏 移 寻 址 ， 范 围 问题 就 出 现在 
地 址 寄存 器 长 度 上 。 尽 管 如 此 ， 人 允许 对 地 址 寄存 器 做 相当 大 的 偏 移 在 应 用 中 还 是 很 方便 
的 ， 这 就 要 求 指令 中 有 比较 多 的 地 址 位 数 。 

地 址 粒度 : 对 于 引用 到 存储 器 而 不 是 寄存 器 的 地 址 ， 另 一 考虑 因素 是 寻 址 的 粒度 。 在 一 
个 有 16 位 或 32 位 字 的 系统 中 ， 一 个 地 址 是 能 引用 到 一 个 字 还 是 一 个 字 节 ， 具 体 由 设计 
者 选择 。 字 节 寻 址 对 于 字符 处 理 是 方便 的 ， 但 对 于 一 个 固定 大 小 的 存储 器 来 说 却 要 求 更 
多 地 址 位 。 

于 是 ,设计 人 员 面 对 许多 因素 需要 考虑 和 权衡 。 然 而 ， 各 种 选择 的 重要 程度 却 不 是 很 清楚 。 
作为 一 个 例子 ， 我 们 援引 一 份 研究 报告 [CRAG79] ， 它 比较 了 各 种 指令 格式 的 构成 方法 ， 包 括 
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使 用 栈 、 通 用 寄存 器 、 一 个 累加 器 和 仅 存储 器 到 寄存 器 方法 。 在 一 致 的 一 组 假设 条 件 下 ， 观 察 到 
在 代码 空间 或 执行 时 间 方面 并 没有 显著 的 不 同 。 

让 我 们 简要 地 查看 两 类 机 器 是 如 何 权衡 这 些 不 同 因素 的 。 

1. PDP-8 

对 于 通用 计算 机 ， 最 简单 的 指令 设计 实例 之 一 是 PDP-8 机 [BELL78b] ， 它 使 用 12 位 指令 和 
12 位 的 字 ， 有 一 个 单一 的 通用 寄存 器 ， 即 累加 器 。 

尽管 有 这 种 设计 限制 ， 但 它 的 寻 址 还 是 非常 灵活 的 。 每 个 存储 器 引用 由 7 位 加 上 两 个 1 位 的 
修饰 符 (modifier) 组 成 。 存 储 器 分 成 固定 长 度 的 页 ， 每 页 有 2 = 128 字 。 地 址 计算 是 基于 对 页 0 
或 当前 页 (含有 这 条 指令 的 页 ) 的 引用 。 两 个 修饰 符 其 中 一 个 是 页 位 ， 它 确定 是 引用 到 页 0 还 
是 当前 页 。 第 2 个 修饰 符 指示 是 直接 地 址 还 是 间接 地 址 。 这 两 种 方式 能 组 合 使 用 ， 故 一 个 间接 地 
址 可 以 是 第 0 页 或 者 当前 页 中 的 一 个 字 所 容纳 的 12 位 地 址 。 男 外 , 第 0 页 上 的 8 个 专用 字 是 自动 
变 址 的 “寄存 器 "” 。 当 对 这 些 位置 上 的 某 一 个 进行 间接 访问 时 ， 就 相当 于 前 变 址 (preindexing) 。 

图 11-5 表示 PDP-8 的 指令 格式 。 它 有 3 位 操作 码 和 3 类 指令 。 对 于 操作 码 值 0 ~5， 指 令 格 
式 是 一 种 单 地 址 存储 器 引用 指令 ， 带 有 一 个 页 位 和 一 个 间接 位 。 于 是 ， 这 种 指令 格式 仅 有 6 种 基 
本 操作 。 为 扩大 操作 种 类 ， 操 作 码 7 定义 了 一 种 寄存 器 引用 指令 或 称 微 指令 (microinstruction) 。 
以 这 种 格式 ， 其 余 位 用 于 编码 其 他 的 操作 。 通 常 是 ， 每 位 定义 一 种 专门 操作 〈 例 如 ， 清 除 累 加 
at), ， 而 且 这 些 位 能 组 合 在 一 条 指令 中 。 采 用 微 指 令 的 设计 思路 可 回溯 到 DEC 的 PDP-1。 在 某 种 
意义 上 ， 它 是 当今 微 程序 式 机 器 的 先驱 ， 这 种 机 器 将 在 第 四 部 分 讨论 。 操 作 码 6 是 IO 指令; 6 
位 用 于 选择 64 个 设备 中 的 某 一 个 ，3 位 用 于 指定 一 个 具体 的 LO 命令 。 





a 癌 接 / 舱 接 地 盐 4 5 6 7 8 9 10 11 
= | IAC = 累加 器 递增 

Z/C = 页 0 或 当前 页 SMA = 累加 器 为 负 时 跳 步 
CLA = 清空 累加 器 SZA = 累加 器 为 零 时 跳 步 

CLL = 清空 连接 SNL = 连接 非 零 时 跳 步 
CMA = 对 累加 器 内 容 求 补 RSS = 保留 跳 步 方式 
CML = 对 连接 内 容 求 补 OSR = 或 交换 寄存 器 内 容 
RAR= 累加 器 循环 右 移 HLT= 停 机 

RAL = 累加 器 循环 左 移 MQA= 乘 法 器 商 放 入 累加 器 
BSW = 字 节 交换 MQL = 装载 乘法 器 商 


图 11-5 PDP-8 指令 格式 


PDP-8 指令 格式 是 非常 有 效 的 ， 它 支持 间接 寻 址 、 偏 移 寻 址 和 变 址 。 包 括 对 操作 码 扩展 的 
操作 在 内 ， 它 能 支持 约 35 种 指令 。 对 于 给 定 的 12 位 指令 长 度 的 限制 来 说 ， 设 计 人 员 已 做 得 很 不 
错 了 。 

2. PDP-10 

PDP-8 指令 集 的 一 个 鲜明 对 照 是 PDP-10 指令 集 。PDP-10 的 设计 目的 是 为 大 型 分 时 系统 所 使 
用 ， 并 强调 编程 的 易 用 性 ， 尽 管 为 此 会 付出 更 多 的 硬件 代价 。 
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设计 该 指令 集 时 所 采用 的 设计 原则 主要 有 [BELL78c] : 
e 正 交 性 (orthogonality): 它 是 指 两 个 变量 相互 独立 的 一 种 原理 。 在 指令 集 语 境 中 ， 此 术 
语 指 的 是 指令 中 其 他 元 素 独立 于 操作 码 ， 即 不 被 操作 码 所 确定 。PDP-10 设计 者 使 用 这 个 
术语 来 描述 这 样 一 个 事实 : 地 址 总 是 以 独立 的 方式 来 计算 ， 与 操作 码 无 关 。 与 之 对 照 的 
是 ， 不 少 机 器 的 寻 址 模式 有 时 是 隐 含 地 取决 于 操作 码 。 
完整 性 ( completeness) : 每 种 算术 数据 类 型 (整数 、 浮 点 数 、 实 数 ) 都 应 有 一 组 完整 
的 和 等 效 的 操作 。 
直接 寻 址 (direct addressing): 提倡 直接 寻 址 方式 ， 避 免 使 用 基 址 加 偏 移 量 寻 址 方式 ， 
因为 这 种 方式 把 存储 器 组 织 的 负担 放 到 了 程序 员 身 上 。 
这 些 原则 的 每 一 个 都 是 为 了 提高 编程 易 用 性 这 一 主要 目标 。 
ee te et 
允许 多 达 512 种 操作 ， 实 际 上 PDP-10 定义 了 总 共 365 种 指令 。 大 多 数 指令 有 双 地 址 ， 其 中 一 
是 16 个 通用 寄存 器 中 的 某 一 个 。 于 是 ， 这 个 寄存 器 操作 数 的 引用 占据 了 4 位 。 另 一 Jp recat 
引用 包含 一 个 18 位 的 存储 器 地 址 字 
段 。 它 既 可 用 作 立 即 数 也 可 用 作 存 储 | 
器 地 址 。 在 后 一 种 方案 中 ， 人 允许 变 址 0 _， 8 9 12 14 17 18 35 





1 = 间接 位 
和 间接 寻 址 ， 变 址 寄存 器 使 用 的 就 是 。 
第 一 个 操作 数 引 用 的 同一 通用 寄 图 11-6 PDP-10 指令 格式 
存 器 。 


36 位 的 指令 长 度 确 实 过 于 奢侈 。 不 管 需 要 这 么 多 操作 码 做 什么 ，9 位 操作 码 字段 也 显得 太 
多 。 寻 址 是 直截了当 的 。18 位 地 址 字段 使 直接 寻 址 更 为 合理 。 对 于 大 于 2 的 存储 器 容量 ， 提 供 
了 间接 寻 址 。 为 使 编程 容易 ， 还 为 表 处 理 和 和 迭代 程序 提供 了 变 址 。 另 外 ，18 位 的 操作 数字 段 ， 
使 立即 寻 址 变 得 有 吸引 力 。 

PDP-10 指令 集 设计 实现 了 前 面 所 列 的 目标 [LUND77] 。 它 以 空间 利用 率 低 为 代价 ， 使 得 程序 
员 编 程 相对 容易 。 这 是 设计 人 员 有 意 而 为 之 ,不 能 把 它 错 看 成 一 种 糟糕 的 设计 。 


11.3.3 EKKS 


至 此 ， 我 们 已 考察 了 单一 固定 指令 长 度 的 使 用 ， 并 在 上 下 文中 间 隐 含 地 讨论 了 所 做 的 权衡 
考虑 。 但 设计 者 可 选取 另 一 种 替代 方法 ， 即 提供 不 同 长 度 的 各 种 指令 格式 。 这 种 策略 易于 提供 大 
的 操作 码 清单 ， 而 操作 码 具 有 不 同 的 长 度 。 寻 址 方式 也 能 更 灵活 ， 指 令 格式 能 将 各 种 寄存 器 和 存 
储 器 引用 加 上 寻 址 方式 予以 组 合 。 使 用 变 长 指令 ,能 有 效 和 紧凑 地 提供 这 些 众多 变化 。 

变 长 指令 的 主要 代价 是 增加 了 CPU 的 复杂 程度 。 硬 件 价格 的 降低 ， 微 程序 设计 方式 的 使 用 
(第 四 部 分 将 讨论 ) 以 及 对 CPU 设计 原则 理解 的 普遍 提高 ， 这 一 切 都 使 所 付 的 代价 变 小 。 但 是 ， 
我 们 会 看 到 RISC 和 超标 量 机 器 能 利用 固定 长 度 的 指令 来 提高 性 能 。 

使 用 变 长 指令 并 没有 消除 所 有 指令 相对 于 机 器 字 长 ， 其 长 度 整齐 的 期 望 。 因 为 CPU 不 知道 
下 一 条 待 取 指令 的 长 度 ， 典 型 的 策略 是 取 至 少 等 于 最 长 指令 长 度 的 几 个 字 节 或 几 个 字 。 这 意味 着 
有 时 一 次 能 取 来 多 条 指令 。 不 过 ， 我 们 会 在 第 12 章 看 到 ， 在 任何 情况 下 ， 这 都 是 一 个 好 的 策略 。 

1. PDP-11 

PDP-11 设计 是 在 16 位 小 型 计算 机 范畴 内 提供 了 功能 最 强 和 最 灵活 的 指令 集 [BELL70 ] 。 

PDP-11 使 用 了 一 组 8 个 16 位 通用 寄存 器 。 其 中 两 个 有 特殊 的 作用 ， 一 个 用 作 栈 指针 ， 支 持 
专用 的 栈 操作 。 一 个 用 作 程 序 计 数 器 ， 保 存 下 一 条 指令 的 地 址 。 

图 11-7 给 出 了 PDP-11 的 指令 格式 。PDP-11 使 用 了 13 种 不 同 格式 ,包括 零 地 址 、 单 地 址 和 
双 地 址 指令 类 型 。 操 作 码 的 长 度 由 4 位 到 16 位 。 寄 存 器 引用 使 用 6 位 ， 其 中 3 位 用 于 指定 寄存 
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器 ， 其 余 3 位 用 于 指定 寻 址 方式 。PDP-11 具有 丰富 的 寻 址 方式 。 将 寻 址 方式 关联 到 操作 数 而 不 
是 操作 码 ， 其 优点 是 任何 寻 址 方式 能 与 任何 操作 码 一 起 使 用 。 正 如 前 面 提 到 的 ， 这 种 独立 性 称 为 
正 交 性 。 

PDP-11 指令 通常 是 1 字 (16 位 ) 长 。 对 于 某 些 指令 ， 又 续 加 了 一 个 或 两 个 存储 器 地 址 ， 这 
样 32 位 和 48 位 指令 也 成 为 指令 清单 的 一 部 分 。 这 进一步 提供 了 寻 址 的 灵活 性 。 

PDP-11 指令 集 和 寻 址 能 力 是 复杂 的 。 这 增加 了 硬件 成 本 和 编程 的 复杂 性 。 优 点 是 能 开发 更 
有 效 更 紧凑 的 程序 。 





T 长 度 ; 
源 和 a ee 


Frei 点 寄存 器 
R 是 通用 寄存 器 之 一 ; 
CC 是 条 件 码 。 


图 11-7 PDP-11 指令 格式 


2. VAX 

大 多 数 处 理 器 体系 结构 提供 相对 比较 少 的 固定 指令 格式 。 这 对 程序 设计 人 员 来 说 ， 导 致 了 
两 个 问题 。 首 先 ， 寻 址 方式 和 操作 码 是 非 正 交 的 。 例 如 ， 对 某 个 操作 ， 其 操作 数 必须 来 自 寄 存 
器 ,为 一 个 来 自 存储 器 ， 或 者 两 个 都 来 自 寄存 器 等 等 。 其次， 一 条 指令 只 能 使 用 有 限 数 目的 操作 
数 ， 一 般 最 多 只 有 2 ~3 个 。 由 于 某 些 运算 本 身 就 要 求 多 个 操作 数 ， 这 就 要 使 用 某 种 技巧 以 两 条 
或 更 多 条 指令 来 实现 所 要 求 的 运算 。 

为 避免 这 些 问题 ， 设 计 VAX 指令 格式 时 确定 了 两 条 规则 [STRE78 ] : 

(1) 所 有 指令 都 应 该 具有 “天 生 ” 数 目的 操作 数 。 

(2) 所 有 操作 数 都 应 该 具有 同样 的 规范 通则 。 
结果 是 高 度 可 变 的 指令 格式 。 一 条 指令 由 1 或 2 字 节 的 操作 码 后 跟随 0 ~ 6 个 操作 数 规定 符 
(specifier) 组 成 ， 规 定 符 的 具体 数目 取决 于 操作 码 。 最 短 的 指令 是 1 字 节 长 ， 但 也 能 有 多 达 37 
字 节 的 指令 。 图 11-8 给 出 VAX 指令 的 若干 例子 。 

VAX 指令 以 1 字 节 操作 码 开始 。 对 于 大 多 数 指令 ，! 字 节 操作 码 足够 了 ， 然 而 VAX 指令 有 300 
多 条 。 于 是 ， 少 数 指令 要 使 用 2 字 节 操作 码 : 第 1 字 节 为 FD RFF, RE 2 字 节 为 实际 操作 码 。 

操作 码 之 后 是 可 多 达 6 个 的 操作 数 规定 符 。 最 小 操作 数 规定 符 是 1 字 节 ， 其 格式 最 左 4 位 用 


第 11 章 ， 指令 集 : 寻 址 方式 和 指令 格式 269 


于 寻 址 方式 说 明 。 唯 一 例外 是 立即 方式 ， 此 时 第 1 字 节 最 左 两 位 是 00， 留 出 6 位 用 于 指定 立即 
数 。 由 于 这 个 例外 ，4 位 字段 总 计 能 说 明 12 种 寻 址 方式 。 


bie omy rae tm 


Ca | RSB( 由 子 程序 返回 ) 


CLRL 的 操作 码 CLRL R9 
寄存 器 R9 (清除 寄存 器 R9) 


MOVW 的 操作 数 
字 偏 移 方式 ， 寄 存 
器 R4 
十 六 进 制 值 356 

字 节 偏 移 方式 ， 寄 
存 器 R11 
十 六 进 制 值 25 









T 
i 











MOVW 356(R4), 25(R11) 


(由 源 地 址 向 目的 地 址 传 
送 一 个 字 ， 源 地 址 是 356 

加 上 R4 的 内 容 ， 目 的 地 址 
是 25 加 上 R11 的 内 容 ) 

















ADDL3#5, RO,@A[R2] 
(将 5 与 RO 中 的 32 位 整数 
相 加 ， 结 果 存 入 地 址 为 A 
与 4 倍 R2 内 容 之 和 的 位 置 ) 


ADDL3 的 操作 码 
短 字 面值 5 
寄存 器 方式 RO 
变 址 前 缀 R2 
间接 字 相对 
(由 PC 的 偏 移 ) 
由 PC 到 位 置 A 
的 相对 偏 移 量 















图 11-8 VAX 指令 举例 


操作 数 规定 符 经 常 只 由 1 个 字 节 组 成 ， 此 时 最 右 4 位 用 于 指定 16 个 通用 寄存 器 之 一 。 操 作 
数 规定 符 能 以 如 下 两 种 方式 之 一 来 扩展 长 度 。 第 一 种 方式 是 ， 一 个 或 多 个 字 节 的 常数 值 可 紧 跟 
操作 数 规定 符 第 1 字 节 之 后 。 例 如 ， 偏 移 寻 址 方式 中 的 8 位 、16 位 或 32 位 的 偏 移 量 。 第 二 种 方 
式 是 用 变 址 方式 ， 此 时 第 1 字 节 由 0100 变 址 方式 码 和 4 位 变 址 寄存 器 标识 符 组 成 ， 操 作 数 规定 
符 的 其 余 字 节 用 于 指明 基地 址 。 

读者 可 能 会 感到 惊讶 ， 什 么 指令 需要 6 个 操作 数 , 而 VAX 还 确实 有 这 样 的 指令 。 例 如 : 

ADDP6 OP1, OP2, OP3, OP4, OP5, OP6 
这 条 指令 是 将 两 个 压缩 十 进 制 数 相 加 ，OP1 和 OP2 指明 一 个 十 进 制 串 的 长 度 和 起 始 地 址 ，0P3 和 
OP4 指明 另 一 个 串 ， 相 加 结果 串 的 长 度 和 存放 始 地 址 由 OPS 和 OPO 指示 。 

VAX 指令 集 有 范围 广泛 的 操作 类 型 和 寻 址 方式 ， 这 为 程序 设计 人 员 ， 尤 其 是 编写 编译 程序 
的 程序 员 ， 提 供 了 一 种 强 有 力 的 、 灵 活 的 编程 工具 。 从 理论 上 讲 ， 这 将 有 利于 高 效 地 把 高 级 语言 
程序 编译 为 机 器 语言 ， 以 及 对 CPU 资源 的 有 效 利 用 。 但 为 此 付出 的 代价 是 ， 与 具有 简单 指令 集 
和 格式 的 处 理 器 相 比 ，VAX CPU 的 复杂 性 是 大 幅度 地 增加 了 。 

第 13 章 考察 精简 指令 集 的 情况 ， 届 时 我 们 将 继续 这 个 问题 的 讨论 。 


11.4 x86 和 ARM 指令 格式 
11.4.1 x86 指令 格式 


x86 配备 了 各 种 指令 格式 。 下 面 介 绍 的 指令 各 元 素 中 ， 只 有 操作 码 字段 是 必 出 现 的 ， 其 他 都 
是 可 选 的 。 图 11-9 说 明了 通常 的 指令 格式 。 指 令 由 0 到 4 个 字 节 的 可 选 指令 前 缀 、1 或 2 字 节 的 
操作 码 、 一 个 由 Mod R/m 字 节 和 比例 变 址 (Scale Index) 字 节 组 成 的 可 选 地 址 指定 符 、 一 个 可 选 
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的 偏 移 量 以 及 一 个 可 选 的 立即 数字 段 等 组 成 。 





FA 11-9 x86 指令 格式 


下 面 首先 考察 前 级 字 节 。 


指令 前 级 (Instruction Prefix); 指令 前 级 车 出 现 ， 则 由 LOCK (锁定 ) 前 缀 或 一 个 重复 前 
级 所 组 成 。LOCK 前 级 用 于 多 处 理 器 环境 ,保证 对 共享 存储 器 的 独占 式 访问 。 重复 前 级 
指定 串 的 重复 操作 ， 这 就 使 x86 处 理 串 要 比 普通 的 软件 循环 快 得 多 。 有 5 种 重复 前 绥 : 
REP, REPE, REPZ, REPNE 和 REPNZ。 当 无 条 件 的 REP BUA AT, FES PIR EMR 
作对 串 中 连续 元 素 重复 执行 ， 重 复 的 次 数 由 CX 寄存 器 指定 。 条 件 REP 前 缀 出 现时 ， 引 
起 指令 重复 执行 直到 CX 变 为 0 或 指定 的 条 件 被 满足 。 

段 取 代 (Segment Override): 显 式 地 指定 这 条 指令 应 使 用 哪个 段 寄存 器 ， 取 代 x86 为 那 条 
指令 规定 的 默认 段 寄 存 器 。 

操作 数 大 小 (Operand Size): 指令 默认 的 操作 数 大 小 是 16 位 或 32 位 ， 操 作 数 大 小 前 级 用 
于 在 32 位 和 16 位 的 操作 数 大 小 之 间 的 切换 。 

地 址 大 小 (Address Size); 处 理 器 能 使 用 16 位 或 32 位 地 址 来 寻 址 存储 器 。 地 址 大 小 确定 
了 指令 格式 中 偏 移 量 的 大 小 和 在 有 效 地 址 计算 中 生成 的 位 移 量 大 小 。 其 中 一 种 被 设计 成 
默认 值 。 地 址 大 小 前 缀 还 用 于 32 位 和 16 位 地 址 生成 之 间 的 切换 。 


指令 本 身 包括 如 下 字段 。 


操作 码 : 操作 码 字段 长 度 是 1、2 或 3 字 节 。 操 作 码 可 能 包括 一 些 位 ， 这 些 位 指定 数据 是 
字 节 还 是 全 尺寸 (16 位 或 32 位 ， 取 决 于 上 下 文 ) ， 数 据 操作 方向 〈 送 至 或 来 自 存储 器 ) , 
以 及 一 个 立即 数字 段 是 否 要 进行 符号 扩展 。 

Mod R/m: 这 个 字 节 和 下 一 个 字 节 提供 寻 址 信息 。Mod R/m 字 节 指定 操作 数 是 在 寄存 器 
中 还 是 在 存储 器 中 。 若 在 存储 器 中 ， 则 该 字 节 中 的 一 个 字段 指定 将 使 用 的 寻 址 方式 。 
Mod R/m 字 节 由 三 个 字段 组 成 : Mod 字段 (2 位 ) ， 与 R/m 字段 组 合 构成 32 个 可 能 的 值 : 
8 个 寄存 器 和 24 个 变 址 方式 。Reg/ 操 作 码 字段 (3 位 ) 指定 一 个 寄存 器 号 或 者 用 做 操作 
码 信息 的 3 个 补充 位 ; Rem 字段 (3 位 ) 能 指定 一 个 寄存 器 作为 一 个 操作 数 的 位 置 ， 或 
者 它 构 成 寻 址 方式 的 一 部 分 ， 与 Mod 字段 组 合 来 编码 。 

SIB: Mod R/m 字 节 的 某 些 编码 要 求 包含 另 一 个 称 为 SIB 字 节 来 完成 寻 址 方式 的 指定 。 
SIB 字 节 由 三 个 字段 组 成 : 比例 (Scale) 字段 (2 位 ) 指定 用 于 比例 变 址 的 比例 因子 ; 变 
址 (Index) 字段 (3 fiz) 用 于 指定 变 址 寄存 器 ; 基 址 (Base) 字段 (3 位 ) 用 于 指定 基 
址 寄存 器 。 

偏 移 量 : 当地 址 方式 指定 符 指 出 使 用 一 个 偏 移 量 时 ， 一 个 8 位 、16 位 或 32 位 有 符号 整数 
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的 偏 移 量 被 添加 到 指令 中 。 

e 立即 数 : 在 指令 中 提供 一 个 8 位 、16 位 或 32 位 的 操作 数值 。 

在 这 里 做 几 个 比较 可 能 是 有 益 的 。 在 x86 格式 中 ， 寻 址 方式 是 作为 操作 码 序列 的 一 部 分 来 提 
供 的 ， 而 不 是 与 每 个 操作 数 一 起 提供 。 因 为 只 允许 一 个 操作 数 有 寻 址 方式 信息 ， 所 以 ，x86 指令 
中 也 就 只 能 引用 到 一 个 存储 器 操作 数 。 相 对 比 ，VAX 机 是 每 个 操作 数 都 可 携带 寻 址 方式 信息 ， 
从 而 允许 存储 器 到 存储 器 的 操作 。 因 此 ，x86 的 指令 更 紧凑 。 然 而 ， 若 要 求 存 储 器 到 存储 器 的 操 
作 ，VAX 使 用 一 条 指令 就 能 实现 。 

x86 格式 允许 变 址 使 用 不 仅 是 1 字 节 ， 而 且 是 2 字 节 或 4 字 节 的 位 移 。 虽 然 使 用 较 长 的 变 址 
位 移 会 导致 指令 更 长 ， 但 这 个 特点 能 提供 所 需 的 灵活 性 。 例 如 ， 在 寻 址 大 的 数组 或 大 的 栈 帧 时 它 
就 很 有 用 。 与 之 对 比 ，IBM S/370 指令 格式 只 人 允许 位 移 不 大 于 4KB (12 位 的 位 移 信 息 ) ， 并 且 位 
移 必须 是 正 值 。 当 一 位 置 不 在 此 位 移 范围 内 时 ,编译 融 必须 生成 额外 的 代码 来 产生 所 需 的 地 址 。 
当 与 局 部 变量 超过 4KB 的 栈 帧 打交道 时 ， 这 个 问题 变 得 尤为 明显 。 正 如 [DEWA90] 对 它 的 描 
述 :“ 由 于 那个 限制 ， 为 370 生成 代码 非常 费劲 ， 导 致 有 的 370 编译 器 简单 地 选择 把 栈 帧 的 大 小 
限定 到 4KB。” 

正如 我 们 已 看 到 的 ，x86 指令 集 的 编码 是 很 复杂 的 。 其 部 分 原因 是 与 8086 向 下 兼容 的 需要 ， 
部 分 原因 是 设计 者 打算 为 编译 器 设计 者 提供 尽 可 能 多 的 支持 ， 以 产生 更 有 效 的 代码 。 然 而 ， 是 像 
这 样 的 复杂 指令 集 还 是 男 一 极端 的 RISC 指令 集 更 合适 一 些 ， 还 是 一 个 有 争议 的 事情 。 


11.4.2 ARM 指令 格式 


ARM 的 所 有 指令 都 是 32 位 长 ， 并 有 规整 的 格式 〈 见 图 11-10) 。 指 令 的 前 4 位 是 条 件 码 。 正 
如 在 第 10 章 中 讨论 的 ， 实 际 上 ARM 的 所 有 指令 都 是 条 件 执行 的 。 指 令 接 下 来 的 3 位 指定 了 指令 
的 一 般 类 型 。 对 除 分 支 指令 之 外 的 大 多 数 指令 而 言 ， 接 下 来 的 5 位 构成 了 操作 码 ， 和 (或 ) 操 
作 的 修订 码 。 剩 下 的 20 位 用 于 操作 数 寻 址 。ARM 指令 这 种 规整 的 格式 使 得 指令 译 码 单元 的 工作 
变 得 比较 轻松 。 


24 23 22 21 20191817161514131211109876543210 




















多 装 /多 存 | Re a 寄存 器 列表 
连接 分 支 | 条件 24 位 偏 移 


S= 对 于 数据 处 理 指令 ， 该 位 标示 指令 将 更 新 条 件 码 

S= 对 于 多 装 /多 存 指令 ,该 位 标示 指令 是 否 仅 在 特权 模式 才 允 许 执行 

P, U, W= 用 于 区 分 不 同 寻 址 模式 类 型 的 位 

B= 区 分 无 符号 字 节 访问 (B==1)， 与 字 访问 (B==0) 的 位 

L= 对 于 装载 /保存 指令 ,区 分 装载 (L==1) 和 保存 (L==0) 

L= 对 于 分 支 指令 ， 确 定 一 个 返回 地 址 是 否 保存 在 连接 寄存 器 (link register) 中 


图 11-10 ARM 指令 格式 











1. 立即 常数 

为 获得 取 值 范 围 较 大 的 立即 数 ， 采 用 立即 数 的 数据 处 理 指令 不 但 指定 了 立即 数值 ， 还 指定 
了 一 个 循环 移 位 值 。8 位 的 立即 数值 被 扩展 到 32 位 ， 然 后 循环 右 移 若 干 次 ， 次 数 等 于 4 位 循环 
移 位 值 的 两 倍 。 图 11-11 显示 了 几 个 这 方面 的 例子 。 
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31302928 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11109 8765432 10 


[ofololololo ol of ofolololololololo lol olololololo TT 


ror #0 — 范围 从 0 到 0x000000FF — 步 长 0x00000001 
31 30 29 28 27 26 25 24 23 22 2120191817161514131211109 8 76543210 


EE olololololololo [olololofololololo of o} of of o} oo] 


ror #8 一 范围 从 0 到 0xFF000000 — 274 0x01000000 
31302928272625242322212019181716 1514131211109 87 6543210 


ror #30 — 范围 从 0 到 0x000003FC — #7 4 0x00000004 
图 11-11 使 用 ARM 立即 常数 的 例子 


2. 压缩 指令 集 

压缩 指令 集 (thumb instruction set) 是 ARM 指令 集中 一 个 重新 编码 的 子 集 。 设 计 压 缩 指令 集 
的 目的 是 提高 使 用 16 位 或 更 窄 内 存 数据 总 线 的 ARM 实现 的 性 能 ， 使 其 相对 于 普通 ARM 指令 集 
来 说 有 更 高 的 代码 密度 。 压 缩 指令 集 包 含 了 ARM 的 32 位 指令 集 的 子 集 ， 并 重新 编码 为 16 位 指 
令 。 下 面 列 出 了 压缩 指令 集 采取 的 精简 措施 : 

(1) 压缩 指令 都 是 无 条 件 的 ， 因 此 条 件 码 字段 都 被 省 去 。 而 且 ， 所 有 的 压缩 算术 和 逻辑 指令 
都 更 新 条 件 标志 ， 因 此 标志 更 新 位 也 被 省 去 。 这 样 总 计 省 去 5 位 。 

(2) 压缩 指令 只 包含 了 全 部 指令 集中 一 部 分 操作 ， 只 用 到 2 位 的 操作 码 字 段 ， 加 上 一 个 3 位 
的 类 型 字段 。 这 样 又 省 去 2 位 。 

(3) 接 下 来 通过 对 操作 数字 段 的 精简 ， 又 省 去 了 9 位 ， 从 而 总 计 省 去 了 16 位 。 具 体 来 说 ， 
例如 ， 压 缩 指令 只 引用 寄存 器 m 到 性 ， 因 此 只 需要 3 位 的 寄存 器 引用 字段 ， 而 不 是 4 位。 立即 
数字 段 中 也 省 去 了 4 位 的 循环 移 位 量 字段 。 

ARM 处 理 器 可 以 执行 压缩 指令 和 普通 32 位 ARM 指令 混合 在 一 起 的 程序 。 处 理 器 控制 寄存 
器 中 的 一 位 用 于 确定 当前 要 运行 的 指令 是 哪 种 类 型 的 指令 。 图 11-12 给 出 了 这 样 的 例子 。 图 中 给 
出 两 种 类 型 指令 的 一 般 格 式 ， 以 及 16 位 和 32 位 格式 指令 的 具体 示例 。 








151413121110 987 6543210 
加 / 减 /比较 /移动 RS 一 一 一 
立即 数 格式 


ADD 13, #19 


1514131211 109876543210 


图 11-12 将 一 条 压缩 ADD 指令 扩展 为 对 应 的 普通 ARM 指令 
11.5 ”汇编 语言 


处 理 器 可 以 识别 和 执行 机 器 指令 。 这 些 指令 都 是 以 二 进 制 形 式 存储 在 计算 机 中 的 。 如 果 一 
个 程序 员 想 直接 用 机 器 语言 编程 ， 那 么 他 必须 用 二 进 制 来 编写 程序 。 
考虑 下 面 这 个 简单 的 BASIC 语句 : 
N=1+J+K 
假设 我 们 想 用 机 器 语言 来 编写 这 个 语句 ， 并 且 把 I、J 和 KK 分别 初 始 化 为 2，3 和 4。 图 11-13a 
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给 出 了 机 器 语言 的 程序 。 程 序 从 内 存 位 置 101 (十 六 进 制 ) 开始 。 所 用 到 的 4 个 变量 在 内 存 中 保 
留 在 从 位 置 201 开始 的 地 方 。 程 序 包括 下 面 这 4 条 指令 : 

(1) 把 位 置 201 的 内 容 装 载 到 累加 器 AC 中 。 

(2) 把 位 置 202 的 内 容 加 到 累加 器 AC 中 。 

(3) 把 位 置 203 的 内 容 加 到 累加 器 AC 中 。 

(4) 把 累加 器 AC 中 的 内 容 保存 到 位 置 204 中 。 

这 样 编程 很 明显 十 分 繁琐 ， 而 且 容易 出 错 。 

一 个 稍微 的 改进 是 用 十 六 进 制 ， 而 不 是 二 进 制 来 编写 程序 (图 11-13b) 。 我 们 可 以 把 程序 写 
成 一 系列 的 行 。 每 行 对 应 着 一 个 内 存 位 置 的 地 址 ， 以 及 要 保存 到 这 个 位 置 的 二 进 制 内 容 的 十 六 
进 制 表示 。 然 后 ， 我 们 需要 一 个 程序 接收 这 些 行 作为 输入 ， 把 每 行 的 十 六 进 制 数 转换 为 二 进 制 
数 ， 并 把 它们 保存 到 所 指定 的 位 置 。 





b) 十 六 进 制 程序 





0) 符 号 程序 d) 汇 编程 序 


图 11-13 ”将 一 条 压缩 ADD 指令 扩展 为 对 应 的 普通 ARM 指令 


更 多 的 改进 是 ， 我 们 可 以 利用 符号 名 称 或 助 记 符 来 表示 每 条 指令 。 这 就 导致 了 图 11-13c 所 
示 的 符号 程序 。 输 入 的 每 一 行 仍然 对 应 着 一 个 内 存 位 置 。 每 行 包括 三 个 字段 ， 以 空格 隔 开 。 第 一 
个 字段 是 该 内 存 位 置 的 地 址 。 第 二 个 字段 是 每 条 指令 操作 码 对 应 的 三 个 字母 的 符号 。 如 果 一 条 
指令 是 内 存 引 用 指令 ， 那 么 第 三 个 字段 就 包含 所 引用 的 内 存 地 址 。 要 保存 任意 的 数据 到 某 个 位 
置 ， 我 们 发 明了 一 条 伪 指 令 (pseudoinstruction) ， 其 符号 是 DAT。 该 伪 指令 只 是 用 来 指明 该 行 第 
三 字段 的 十 六 进 制 数 要 被 保存 到 该 行 第 一 字段 所 指定 的 内 存 位 置 。 

对 于 这 种 类 型 的 输入 程序 ， 我 们 需要 一 个 稍微 复杂 一 些 的 程序 。 该 程序 接收 输入 的 每 一 行 ， 
根据 每 行 第 二 字段 和 第 三 字段 (如 果 有 的 话 ) ， 生 成 相应 的 二 进 制 数 ， 并 保存 到 第 一 字段 指定 的 
地 址 中 。 

使 用 符号 程序 可 使 编程 工作 轻松 些 ， 但 还 是 比较 策 拙 。 尤 其 是 ， 必 须 为 每 个 字 指定 一 个 绝对 
地 址 时 。 这 意味 着 程序 指令 和 数据 都 只 能 被 装载 到 内 存 中 一 个 固定 的 地 方 ， 而 且 还 必须 预先 确 
定 。 更 糟糕 的 是 ， 假 如 我 们 某 天 想 修改 程序 ， 添 加 或 删除 一 行 ， 那 么 我 们 必须 更 新 被 修改 处 之 后 
所 有 行 的 地 址 。 

更 好 的 一 种 方式 也 是 普遍 使 用 的 一 种 方式 ， 是 使 用 符号 地 址 ， 如 图 11-13d 所 示 。 每 行 还 是 
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包含 3 个 字段 。 第 一 个 字段 仍然 是 地 址 ， 但 是 不 再 使 用 绝对 的 数值 地 址 ， 而 是 使 用 符号 。 有 些 行 
没有 地 址 ， 意 味 着 这 些 行 的 地 址 是 按 顺 序 接着 上 一 行 的 地 址 递增 。 对 于 引用 内 存 的 指令 ， 第 三 个 
字段 也 使 用 的 是 符号 地 址 。 

经 过 最 后 的 改进 ， 我 们 得 到 了 所 谓 的 汇编 语言 (assembly language) 。 用 汇编 语言 编写 的 程序 
(汇编 程序 ) ， 通 过 汇编 器 (assembler) 翻译 为 机 器 语言 。 汇 编 器 不 但 进行 上 面 介绍 过 的 符号 操 
作 码 翻译 ， 而 且 对 符号 地 址 进行 存储 器 地 址 分 配 。 

汇编 语言 的 出 现 是 计算 机 技术 发 展 的 一 个 重要 里 程 碑 。 它 迈 出 了 走向 今天 我 们 所 使 用 的 高 
级 语言 的 第 一 步 。 虽 然 现 在 很 少 有 程序 员 使 用 汇编 语言 了 ， 但 所 有 的 机 器 都 提供 了 对 应 的 汇编 
语言 。 对 于 系统 程序 ， 例 如 编译 器 和 输入 /输出 例 程 ， 它 们 还 是 需要 的 。 


11.6 ”推荐 的 读物 . 


第 10 章 所 援引 的 那些 文献 同样 可 用 于 本 章 。[ BLAA97] 有 对 指令 格式 和 寻 址 方式 的 详细 讨论 。 另 外 ， 
读者 可 参考 [FLYN85] 的 关于 指令 集 设计 出 发 点 ， 特 别 是 有 关 格式 的 讨论 和 分 析 。 





11.7 关键 词 、 思 考题 和 习题 


关键 词 

autoindexing: 自动 变 址 instruction format: 指令 格式 

base-register addressing: 基 值 寄存 器 寻 址 postindexing: 后 变 址 

direct addressing: 直接 寻 址 preindexing: 前 变 址 

displacement addressing: 偏 移 寻 址 register addressing: 寄存 器 寻 址 

effective address: 有 效 地 址 register indirect addressing: 寄存 器 间接 寻 址 
immediate addressing: 立即 寻 址 relative addressing: 相对 寻 址 

indexing: 变 址 word: 字 

indirect addressing: 间接 寻 址 


思考 题 

11.1 简要 定义 立即 寻 址 。 

11.2 简要 定义 直接 寻 址 。 

11.3 简要 定义 间接 寻 址 。 

11.4 简要 定义 寄存 器 寻 址 。 

11.5 简要 定义 寄存 器 间接 寻 址 。 

11.6 简要 定义 偏 移 寻 址 。 

11.7 简要 定义 相对 寻 址 。 

11.8 自动 变 址 的 优点 是 什么 ? 

11.9 前 变 址 和 后 变 址 的 区 别 何在 ? 
11.10 ”确定 寻 址 位 的 使 用 受 什么 因素 影响 ? 
11.11 使 用 变 长 指令 的 优 缺点 是 什么 ? 


一 


= = OWA HN PW WN 


习题 

11.1 给 定 如 下 存储 器 值 ， 并 使 用 有 一 累加 器 的 单 地 址 机 器 ， 如 下 指令 将 把 什么 值 装 和 人 累加 器 ? 
e 20 & 40 
° 30 & 50 


11.2 


-11 


:12 
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e +40 4 60 

e #50470 

(a) LOAD IMMEDIATE 20 

(b) LOAD DIRECT 20 

(c) LOAD INDIRECT 20 

(d) LOAD IMMEDIATE 30 

(e) LOAD DIRECT 30 

(£) LOAD INDIRECT 30 

若 存 于 程序 计数 器 中 的 地 址 标记 为 X1 ， 存 于 X 中 的 指令 的 地 址 部 分 (操作 数 引 用 ) 是 X2 ， 执 行 此 
指令 所 需 的 操作 数 存 于 地 址 为 X3 的 存储 器 字 中 。 变 址 寄存 器 有 值 X4。 若 此 指令 的 寻 址 方式 是 (a) 
直接 寻 址 ，(b) 间接 寻 址 ，(c) PC 相对 寻 址 ，(d) 变 址 寻 址 ,那么 X1，X2 ，X3 ，X4 应 该 如 何 组 
合 ， 从 而 得 到 需要 的 地 址 ? 

某 指令 的 地 址 字段 含有 十 进 制 值 14。 对 下 列 寻 址 方式 ， 其 相应 的 操作 数位 于 何 处 ? 

(a) 立即 寻 址 (b) 直接 寻 址 (c) 间接 寻 址 

(d) 寄存 器 寻 址 (e) 寄存 器 间接 寻 址 

考虑 一 个 16 位 处 理 器 ， 它 的 一 条 装载 指令 以 如 下 形式 出 现在 
主 存 ， 起 始 地 址 为 200。 

第 一 字 的 第 一 部 分 指出 此 指令 是 将 一 个 值 装 和 人 累加 器 。Mode 
字段 用 于 指定 一 种 寻 址 方式 。 对 于 某 些 寻 址 方式 ，Mode 字段 
还 指定 了 一 个 源 寄存 器 ， 并 假设 指定 的 源 寄 存 器 是 RI1 ， 有 值 
400。 还 有 一 个 基 址 寄存 器 ， 它 有 值 100。 地 址 201 处 的 值 500 可 以 是 地 址 计算 的 一 部 分 。 假 定位 置 
399 处 有 值 999， 位 置 400 处 有 值 1000， 如 此 等 等 。 请 对 如 下 寻 址 方式 确定 有 效 地 址 和 将 被 装 入 的 操 
作 数 : 

(a) 直接 (b) 立即 (c) 间接 (d) PC 相对 寻 地 

(e) ME (f) 寄存 器 (g) 寄存 器 间接 (h) 用 R1， 自 动 递增 变 址 (autoindexing with increment) 

KE PC 相对 方式 的 分 支 指 令 是 3 字 节 长 。 此 指令 的 地 址 是 256028 (十 进 制 )。 若 指令 中 的 带 符号 偏 移 
量 是 -31 ， 请 确定 转移 的 目标 地 址 。 

某 条 PC 相对 方式 的 分 支 指令 存 于 地 址 为 620, 的 存储 器 位 置 中 。 它 要 转移 到 530,o 位 置 上 。 指 令 中 的 
地 址 字段 是 10 位 长 ， 其 二 进 制 值 是 什么 ? 

若 CPU 取 并 执行 一 条 间接 地 址 方式 指令 ， 该 指令 是 : (a) 一 个 要 求 单 操作 数 的 计算 ; (b) 一 个 分 支 ， 
那么 CPU 分 别 需要 访问 存储 器 几 次 ? 

IBM 370 不 提供 间接 寻 址 。 假 定 一 个 操作 数 的 地 址 是 在 主 存 中 ， 你 如 何 存 取 此 操作 数 ? 

在 [COOK82] 中 ， 作 者 建议 取消 PC 相对 寻 址 方式 ， 赞 成 使 用 其 他 寻 址 方式 ， 例 如 栈 寻 址 方式 。 这 
个 建议 有 什么 缺点 ? 








.10 x86 包括 如 下 指令 : 


IMUL opl, ，op2 ,立即 数 
这 条 指令 将 操作 数 op2 (可 以 是 寄存 器 或 存储 器 ) 乘 以 立即 操作 数值 ， 结 果 放 和 人 opl (必须 是 寄存 
ft) 中 。 指 令 集中 再 没有 其 他 这 类 的 三 操作 数 指令 。 这 种 指令 的 可 能 用 途 是 什么 (提示 : 考虑 变 
址 )? 
考虑 一 个 包括 基 址 带 变 址 (base with indexing) 寻 址 方式 的 处 理 器 。 假 设 遇 到 使 用 这 种 寻 址 方式 的 一 
条 指令 ， 指 令 给 定 的 偏 移 量 是 1970 (十 进 制 ) 。 当 前 的 基 址 和 变 址 寄存 器 分 别 有 十 进 制 数 48022 和 
8。 那 么 操作 数 的 地 址 是 什么 ? 
定义 : EA=(X) + 为 有 效 地 址 等 于 位 置 X 的 内 容 ， 并 在 有 效 地 址 计算 后 X 递增 一 个 字 长 ; 
EA = -(X) 为 有 效 地 址 等 于 位 置 X 的 内 容 ， 并 在 有 效 地 址 计算 前 X 递减 一 字 长 ; 
EA = (X) - 为 有 效 地 址 等 于 位 置 X 的 内 容 ， 并 在 有 效 地 址 计算 后 X 递减 一 字 长 。 
考虑 如 下 指令 ， 它 们 都 有 (操作 、 源 操作 数 、 目 的 操作 数 ) 的 格式 ， 并 且 操 作 结果 放 人 目的 操 
作 数 。 
(a) OPX, (X) (b) OP (X), (X) + 
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11; 


11. 
11. 


11. 
11. 


13 


.18 


19 


(c) OP (X)+, (X) (d) OP -(X), (X) 
(e) OP -(X), (X)+ (£) OP (X) +, (X) + 
(g) OP (X)-, (X) 


使 用 X 作为 栈 指针 ， 上 述 哪些 指令 能 由 栈 弹 出 顶部 两 元 素 ， 完 成 所 要 求 的 操作 (例如 ，ADD 源 到 目 
的 并 存 人 目的 ) ， 并 将 结果 压 回 栈 ? 对 这 样 的 每 条 指令 ， 栈 是 朝 存 储 器 位 置 0 方向 还 是 朝 相反 方向 增 
长 ? 

假定 有 一 个 面向 栈 的 处 理 器 ， 包 括 有 PUSH 和 POP 栈 操 作 。 算 术 运 算 自 动 涉及 栈 项 的 1 或 2 个 元 素 。 
开始 时 栈 为 空 。 下 述 指令 执行 后 栈 中 保留 下 来 的 栈 元 素 是 什么 ? 

PUSH 4 

PUSH 7 

PUSH 8 

ADD 

PUSH 10 

SUB 

MUL 

证 明说 法 : 32 位 指令 的 功能 不 会 有 16 位 指令 的 功能 两 倍 那样 多 ， 是 正确 的 。 

为 什么 IBM 决定 将 每 字 36 位 转向 到 每 字 32 位 的 结构 ， 并 且 是 针对 什么 做 出 这 一 决定 的 ? 

假定 有 一 指令 集 ， 其 指令 长 度 是 固定 的 16 位 长 ， 其 中 操作 数 指定 符 是 6 位 长 。 若 及 条 双 操 作 数 指 
S, 工 条 零 操 作 数 指令 ， 那 么 能 支持 的 单 操作 数 指令 的 最 大 数目 为 多 少 ? 

设计 一 种 变 长 操作 码 ， 以 允许 如 下 指令 全 都 能 编码 成 36 位 指令 : 

。 指令 有 两 个 15 位 地 址 和 一 个 3 位 寄存 器 号 。 

。 指令 有 一 个 15 位 地 址 和 一 个 3 位 寄存 器 号 。 

。 指令 没有 地 址 或 寄存 器 。 

考虑 习题 10. 6 的 结果 。 假 定 ，M 是 一 个 16 位 存储 器 地 址 ，X、Y、Z 或 是 16 位 地 址 , 或 是 4 位 寄 
存 器 号 。 单 地 址 机 器 使 用 一 个 累加 器 。 双 地 址 和 三 地 址 机 器 有 16 个 寄存 器 ， 并 且 指 令 能 在 存储 器 位 
置 和 寄存 器 的 各 种 组 合 上 操作 。 并 假定 指令 长 度 是 4 位 的 整 倍数 ， 操 作 码 是 8 位 。 为 计算 X， 每 种 
机 器 各 需要 多 少 位 ? 

一 条 指令 有 两 个 操作 码 ， 它 有 无 任何 可 能 的 存在 理由 ? 

16 位 的 Zilog Z8001 通常 有 如 下 指令 格式 : 


I 


模式 操作 码 w/b 操作 数 2 操作 数 1 





其 中 ， 模 式 字段 指示 如 何 由 操作 数字 段 找 到 操作 数 。w/b 字段 用 在 某 些 指令 中 指示 操作 数 是 字 节 
(B) 还 是 16 MF (W), RERI 字段 可 以 取决 于 模式 字段 内 容 ) 指定 16 个 通用 寄存 器 之 一 。 
操作 数 2 字段 可 指定 除 寄存 器 0 之 外 的 任 一 通用 寄存 器 。 若 此 字段 为 全 0， 则 原 操作 码 有 新 的 意义 。 
(a) 28001 提供 了 多 少 的 操作 码 ? 

(b) 建议 一 种 有 效 方式 来 提供 更 多 操作 码 并 指出 所 涉及 的 权衡 考虑 。 
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本 章 要 点 


e 处 理 器 包括 用 户 可 见 的 寄存 器 和 控制 /状态 寄存 器 。 用 户 可 见 寄存 器 是 指 ， 用 户 使 用 机 器 
指令 显 式 或 隐 式 可 访问 的 寄存 器 。 它 们 可 以 是 通用 寄存 器 ， 也 可 以 是 用 于 定点 或 浮 点 数 、 
地 址 、 变 址 和 段 指 针 这 样 的 专用 寄存 器 。 控 制 和 状态 寄存 器 用 于 控制 CPU 的 操作 。 一 个 
明显 的 例子 是 程序 计数 器 。 另 一 重要 的 例子 是 程序 状态 字 (PSW)， 它 包含 各 种 状态 和 条 
件 位 ， 例 如 反映 最 近 一 次 算术 运算 结果 的 标志 位 、 中 断 允 许 位 和 指示 CPU 当前 运行 于 特 
权 模 式 下 还 是 用 户 模 式 下 的 状态 位 。 
处 理 器 采用 指令 流水 方式 来 加 速 指令 的 执行 。 从 本 质 上 讲 ， 流 水 是 将 指令 周期 分 解 成 几 
个 连续 出 现 的 阶段 ， 如 取 指 令 、 译 码 指 令 、 确 定 操作 数 地 址 、 取 操作 数 、 执 行 指令 和 写 
结果 操作 数 。 指 令 向 前 移动 通过 这 些 段 ， 就 像 车 间 的 一 条 装配 线 一 样 ; 于 是 ， 不 同 的 指 
令 能 同时 在 各 个 段 上 工作 。 不 过 ， 转 移 和 指令 间 相 关 性 的 出 现 ， 使 流水 线 的 设计 和 使 用 
变 得 复杂 了 。 

本 章 继续 第 三 部 分 未 完成 的 讨论 ， 并 为 第 13 章 和 第 14 章 关 于 RISC 和 超标 量 结构 的 讨论 打 
基础 。 

本 章 以 CPU 组 成 为 开始 ， 然 后 分 析 构 成 处 理 器 内 部 存储 器 的 寄存 器 ， 接 着 再 返回 到 指令 周 
期 的 讨论 ( 始 于 3.2 节 )， 在 那里 将 完整 地 说 明 指 令 周期 和 被 称 为 指令 流水 线 的 通用 技术 。 最 后 
以 考察 x86 和 ARM 处 理 器 组 成 的 各 方面 情况 来 结束 本 章 。 


12.1 CPU 组 成 


为 理解 CPU 的 组 成 ， 让 我 们 考虑 对 CPU 的 要 求 ， 它 必须 完成 以 下 任务 : 

e RWIS: CPU 必须 从 存储 器 ( 寄存器、cache、 主 存 ) 读 取 指令 。 

。 解释 指令 : 必须 对 指令 进行 译 码 ， 以 确定 所 要 求 的 动作 。 

© 取 数 据 : 指令 的 执行 可 能 要 求 从 存储 器 或 输入 /输出 (LO) 模块 读 取 数据 。 

© 处 理 数据 : 指令 的 执行 可 能 要 求 对 数据 完成 某 些 算术 或 逻辑 运算 。 

e SRE: 执行 的 结果 可 能 要 求 写 数据 到 存储 器 或 VO 模块 。 

显然 ， 为 了 能 做 这 些 事情 ，CPU 需要 暂时 存储 某 些 
数据 。CPU 必须 记 住 当前 执行 的 指令 的 位 置 ， 以 便 知道 
从 何 处 得 到 下 一 条 指令 。CPU 还 需要 在 指令 执行 期 间 暂 
时 保存 指令 和 数据 。 换 名 话说 ，CPU 需要 一 个 小 的 内 部 
存储 器 。. 

图 12-1 是 一 个 简化 的 CPU 视图 ， 指 出 了 CPU 经 由 
系统 总 线 与 系统 其 余部 分 的 连接 。 对 第 3 章 所 描述 的 任 
一 种 互 连 结构 ， 将 需要 一 个 类 似 的 接口 。 读 者 会 回忆 起 ， 





CPU 的 主要 部 件 是 一 个 算术 逻辑 单元 (ALU) 和 一 个 控 人 
制 器 (CU) 。ALU 完成 数据 的 实际 计算 或 处 理 。 控 制 器 系统 


控制 数据 和 指令 移 人 移出 CPU， 并 控制 ALU 的 操作 。 另 
外 ， 此 图 还 表示 了 由 一 组 存储 位 置 组 成 的 极 小 的 内 部 存 图 12-1 CPU 与 系统 总 线 
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储 器 ， 称 为 寄存 器 。 

图 12-2 是 一 个 更 详细 的 CPU 视图 ， 指 出 了 数据 传送 和 逻辑 控制 的 路 径 ， 包 括 一 个 标记 为 
“CPU 内 部 总 线 ” 的 组 件 。 需 要 有 这 么 一 个 组 件 以 在 各 寄存 器 和 ALU 间 传 送 数据 ， 因 为 ALU 实 
际 上 只 对 CPU 内 部 存储 器 中 的 数据 操作 。 此 图 还 表示 了 ALU 典型 的 基本 组 件 。 请 注意 在 作为 一 
个 整体 的 计算 机 内 部 结构 与 CPU 内 部 结构 之 间 的 相似 性 ， 两 种 结构 中 都 有 一 个 主要 组 件 的 小 集 
合 〈 计 算 机 的 CPU、LO、 存 储 器 ，CPU 的 控制 器 、ALU、 寄 存 器 ) 通过 数据 通路 连接 在 一 起 。 





图 12-2 CPU 内 部 结构 


12.2 寄存 器 组 成 


正如 第 4 章 所 述 ,计算 机 系统 采用 了 存储 器 分 级 系统 。 此 分 级 系统 的 级 别 越 高 ， 存 储 器 越 
快 、 越 小 ， 也 越 昂贵 (HE). CPU 内 有 一 组 寄存 器 ， 它 们 的 存储 器 级 别 在 分 级 系统 中 位 于 主 存 
和 cache 之 上 。CPU 中 的 寄存 器 可 分 为 两 类 ; 

© 用 户 可 见 寄存 器 (user-visible register): 允许 机 器 语言 或 汇编 语言 的 编程 人 员 通 过 优化 寄 

存 器 的 使 用 而 减少 对 主 存 的 访问 。 

© 控制 和 状态 寄存 器 (control and status register): 由 控制 器 来 控制 CPU 的 操作 ， 并 由 拥有 

特权 的 操作 系统 程序 来 控制 程序 的 执行 。 

这 两 类 寄存 器 的 划分 界限 并 不 明确 。 例 如 ， 在 某 些 机 器 上 程序 计数 器 是 一 个 用 户 可 见 寄存 
器 (如 x86) ， 但 在 很 多 机 器 上 却 不 是 。 为 了 顺利 进行 下 面 的 讨论 ， 我 们 将 采用 上 述 分 类 。 


12.2.1 用 户 可 见 寄存 器 


用 户 可 见 寄存 器 是 指 可 通过 机 器 语言 方式 访问 的 寄存 器 。 这 些 用 户 可 见 寄存 器 可 分 为 : 通 
用 、 数 据 、 地 址 、 条 件 码 。 

ii ABH (general-purpose register) 可 被 程序 员 指派 各 种 用 途 。 有 时 ， 它 们 在 指令 集中 的 
使 用 是 正 交 于 操作 的 ， 即 任何 通用 寄存 器 能 为 任何 操作 码 容 纳 操 作 数 。 这 展现 了 真正 通用 的 意 
义 。 然 而 ， 常 常 不 是 这 样 的 ， 而 是 有 某 些 限制 。 例 如 ， 可 能 有 专用 于 浮 点 操作 和 栈 操作 的 通用 寄 
存 器 。 

某 些 情况 下 ， 通 用 寄存 器 可 用 作 寻 址 功能 (如 寄存 器 间接 寻 址 、 偏 移 寻 址 ) 。 在 其 他 情况 
下 ， 数 据 寄存 器 (data register) 和 地 址 寄存 器 (address register) 之 间 有 部 分 或 完全 的 区 分 。 数 
据 寄存 器 仅 可 用 于 保持 数据 而 不 能 用 于 操作 数 地址 的 计算 。 地 址 寄存 器 可 以 是 自身 有 某 些 通用 
性 ,或 是 专用 于 某 种 具体 的 寻 址 方式 。 例 如 : 
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© 段 指针 (segment pointer); 在 提供 分 段 寻 址 的 机 器 中 ( 见 8.3 节 ) ， 段 寄存 器 保持 着 该 段 
的 基地 址 。 可 以 有 多 个 段 寄 存 器 ， 例 如 ， 一 个 是 操作 系统 的 ， 一 个 是 当前 进程 的 。 

© 变 址 寄存 器 (index register); 这 些 寄 存 器 用 于 变 址 寻 址 ， 并 可 能 是 自动 变 址 的 。 

© 栈 指针 (stack pointer): 若 有 用 户 可 见 的 栈 寻 址 方式 ， 则 一 般 来 说 栈 会 被 分 配 在 存储 器 
中 ， 而 CPU 内 有 一 专用 的 寄存 器 指向 栈 顶 。 这 允许 隐 含 寻 址 ， 即 push, pop 和 其 他 不 需 
要 显 式 地 指定 栈 操作 数 的 栈 指令 。 

这 里 有 几 个 设计 出 发 点 。 重 要 的 一 点 是 ， 使 用 完全 通用 的 寄存 器 还 是 规定 各 寄存 器 的 用 途 。 
在 上 一 章 我 们 已 接触 到 这 个 问题 ， 因 为 它 影响 指令 集 的 设计 。 对 专用 寄存 器 的 使 用 ， 一 个 操作 数 
指定 符 所 引用 的 寄存 器 类 型 通常 能 隐 含 在 操作 码 中 。 操 作 数 指定 符 必须 做 的 只 是 标识 这 一 组 专 
用 寄存 器 中 的 某 一 个 将 被 使 用 ， 而 不 是 所 有 寄存 器 中 的 某 一 个 ， 于 是 节省 了 位 数 。 另 一 方面 ， 这 
种 规定 又 限制 了 程序 员 的 灵活 性 。 

另 一 设计 出 发 点 是 寄存 器 数量 。 同 样 ， 这 影响 指令 集 的 设计 ， 因 为 寄存 器 越 多 ， 需 要 的 操作 
数 指定 符 的 位 数 也 越 多 。 正 如 前 面 所 讨论 的 ， 某 些 机 器 有 8 到 32 个 寄存 器 是 适宜 的 [LUND77] 。 
太 少 的 寄存 器 会 导致 更 多 的 存储 器 访问 , 太 多 的 寄存 器 又 不 能 显著 地 减少 存储 器 访 问 (如 
[WILL90] ) 。 然 而 ， 一 种 新 的 方法 使 得 在 某 些 RISC 系统 中 展示 出 了 使 用 上 百 个 寄存 器 的 优点 ， 
这 些 将 在 第 13 章 讨论 。 

最 后 ， 这 里 还 有 一 个 寄存 器 长 度 问 题 。 用 于 保存 地 址 的 寄存 器 明显 要 求 其 长 度 足 以 容纳 最 
长 的 地 址 。 数 据 寄存 器 应 能 保存 大 多 数 数 据 类 型 的 值 。 某 些 机 器 允许 两 个 相 邻 的 寄存 器 作为 一 
个 寄存 器 来 保持 两 倍 长 度 的 值 。 

最 后 一 类 寄存 器 是 用 于 保存 条 件 码 (condition code) ， 亦 称 为 标志 (flag) 的 寄存 器 ， 它 们 至 
少 是 部 分 用 户 可 见 的 。CPU 硬件 设置 这 些 条 件 位 作为 操作 的 结果 。 例 如 ， 一 个 算术 运算 可 能 产 
生 一 个 正 的 、 负 的 、 零 或 溢出 的 结果 。 除 结果 本 身 存 于 寄存 器 或 存储 器 之 外 ， 一 个 条 件 码 亦 相 应 
被 设置 。 这 些 条 件 码 可 被 后 面 的 条 件 分 支 指令 所 测试 。 

条 件 码 通常 被 收集 到 一 个 或 多 个 寄存 器 中 。 通 常 ， 它 们 构成 控制 寄存 器 的 一 部 分 。 机 器 指令 
允许 这 些 位 以 隐 含 引用 的 方式 读 出 ， 但 它们 不 能 被 程序 员 更 改 。 

许多 处 理 器 ， 包 括 那些 基于 IA-64 体系 结构 的 处 理 器 和 MIPS 处 理 器 ， 根 本 不 使 用 条 件 码 。 
相反 ， 它 们 采用 测试 条 件 分 支 指 令 ， 这 种 指令 指定 一 种 比较 操作 ， 并 根据 比较 的 结果 产生 控制 转 
移动 作 ， 不 保存 条 件 码 。 基 于 [DER087] 的 表 12-1 列 出 了 条 件 码 的 主要 优 缺 点 。 





R121 RAB 
优点 缺点 
1. 因 条 件 码 由 常规 的 算术 和 数据 传送 指令 建立 ， 故 它 1. 条 件 码 增加 了 硬 软 件 的 复杂 性 。 条 件 码 位 被 不 同 的 
们 能 减少 对 比较 和 测试 类 指令 的 需求 。 指令 以 不 同 的 方式 频繁 修改 ， 使 微 程序 编程 人 员 和 编译 


2. 条 件 指令 ， 例 如 “BRANCH” 这 样 的 条 件 分 支 指令 
要 比 测试 条 件 分 支 (TEST AND BRANCH) 这 样 的 复合 
指令 简单 。 分 ， 故 要 求 额外 的 硬件 连接 。 

3. 条 件 码 便利 了 多 路 分 支 选择 。 例 如 ， 一 条 测试 指令 3. 使 用 条 件 码 的 机 器 经 常 需要 为 诸如 位 检查 、 循 环 控 
之 后 可 带 两 条 分 支 ， 一 条 按 小 于 或 等 于 0 的 条 件 码 进行 ，| 制 、 原 子 式 信号 量 操作 等 这 类 特殊 情况 添加 专门 的 非 条 
另 一 条 按 大 于 0 进行 。 件 码 指令 。 

4. 在 流水 实现 中 ， 条 件 码 要 求 专 门 的 同步 化 ， 以 避免 
冲突 。 


器 设计 人 员 的 工作 更 为 困难 。 
2. 条 件 码 不 正规 ， 通 常 它们 不 是 主 数据 路 径 的 一 部 





某 些 机 器 中 ， 一 个 子 程序 调用 将 导致 自动 保存 所 有 用 户 可 见 的 寄存 器 ,在 返回 时 自动 取 回 。 
这 些 保存 和 恢复 是 作为 调用 和 返回 指令 执行 功能 的 一 部 分 由 CPU 完成 的 。 这 就 允许 各 个 子 程序 
独立 地 使 用 用 户 可 见 寄存 器 。 而 在 其 他 一 些 机 器 上 ， 子 程序 调用 之 前 保存 相关 用 户 可 见 寄存 器 
的 内 容 是 程序 员 的 责任 ， 他 们 要 在 程序 中 为 此 专门 安排 一 些 指 令 。 
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12.2.2 ”控制 和 状态 寄存 器 


有 一 类 寄存 器 在 CPU 中 起 着 控制 操作 的 作用 。 它 们 中 的 大 多 数 ， 在 大 多 数 机 器 上 ， 是 用 户 
不 可 见 的 。 某 些 在 控制 或 操作 系统 模式 下 执行 的 机 器 指令 是 用 户 可 见 的 。 

当然 ， 不 同 的 机 器 将 有 不 同 的 寄存 器 组 织 并 使 用 不 同 的 术语 。 这 里 ， 我 们 列 出 一 个 相对 完整 
的 寄存 器 类 型 列表 ， 并 予以 简短 描述 。 

对 于 指令 执行 ， 有 4 种 寄存 器 是 至 关 重 要 的 。 

e 程序 计数 器 (PC): 存 有 待 取 指令 的 地 址 。 

。 指令 寄存 器 (R): 存 有 最 近 取 来 的 指令 。 

。 存储 器 地 址 寄存 器 (MAR): 存 有 存储 器 位 置 的 地 址 。 

。 存储 器 缓冲 寄存 器 (MBR): 存 有 将 被 写 人 存储 器 的 数据 字 或 最 近 从 存储 器 读 出 的 字 。 

不 是 所 有 的 处 理 器 都 有 专门 称 为 MAR 和 MBR 的 寄存 器 ,不 过 还 是 会 有 某 种 等 价 的 缓冲 机 
制 ， 其 中 要 被 写 到 系统 总 线 上 的 数据 位 ， 以 及 从 系统 总 线 上 读 到 的 数据 位 ， 都 会 被 暂时 保留 或 存 
储 起 来 。 

通常 ， 在 每 次 取 指 令 之 后 ，PC 的 内 容 即 被 CPU 更 改 ， 故 它 总 是 指向 将 被 执行 的 下 一 条 指 
令 。 转 移 或 跳 步 指令 亦 修改 PC 的 内 容 。 取 来 的 指令 装 入 及， 在 那里 分 析 操 作 码 和 操作 数 指定 
符 。 与 存储 器 的 数据 交换 使 用 MAR 和 MBR。 在 总 线 组 织 的 系统 中 ，MAR 直接 与 地 址 总 线 相连 ， 
MBR 直接 与 数据 总 线 相连 。 然 后 ， 用 户 可 见 寄存 器 再 与 MBR 交换 数据 。 

刚才 提 到 的 4 个 寄存 器 用 于 CPU 和 存储 器 之 间 的 数据 传送 。 在 CPU 内 ， 数 据 必须 提交 给 
ALU 来 处 理 。ALU 可 对 MBR 和 用 户 可 见 寄存 器 直接 存 取 。 相 应 地 也 可 在 ALU 的 边界 上 有 另外 的 
缓冲 寄存 器 ， 这 些 寄存 器 能 作为 ALU 的 输入 和 输出 ， 可 与 MBR 和 用 户 可 见 的 寄存 器 交换 数据 。 

很 多 CPU 设计 都 包括 常 称 为 程序 状态 字 (program status word, PSW) 的 一 个 或 一 组 寄存 器 。 
PSW 一 般 含 有 条 件 码 加 上 其 他 状态 信息 。 通 常 PSW 包括 下 列 字段 或 标志 : 

e 符号 (sign): 容纳 最 后 算术 运算 结果 的 符号 位 。 

。 Ẹ (zero); 当 结 果 是 0 时 被 置 位 。 

e 进位 (cary): 若 操 作 导 致 最 高 位 有 向 上 的 进位 (加 法 ) 或 借 位 (减法 ) 时 被 置 位 。 用 

于 多 字 算 术 运 算 。 

e SF (equal): 若 逻 辑 比 较 的 结果 相等 ， 则 置 位 。 

e 溢出 (overflow): 用 于 指示 算术 溢出 。 

。 中 断 允 许 / 禁 止 : 用 于 允许 或 禁止 中 断 。 

e 监管 (supervisor) : 指出 CPU 是 执行 在 监管 模式 中 还 是 在 用 户 模式 中 。 某 些 特权 的 指令 

只 能 在 监管 模式 中 执行 ， 某 些 存储 器 区 域 也 只 能 在 监管 模式 中 被 访问 。 

一 些 具 体 CPU 设计 中 可 能 还 会 有 其 他 额外 的 有 关 状 态 和 控制 的 寄存 器 。 例 如 ， 除 了 PSW 之 
外 ， 可 能 有 一 个 指向 存储 器 块 〈 例 如 进程 控制 块 PCB) 的 指针 寄存 器 ， 而 此 存储 块 含 有 附加 的 
状态 信息 。 在 使 用 向 量 式 中 断 的 机 器 中 ， 可 能 提供 有 一 个 中 断 向 量 寄存 器 。 若 栈 用 于 实现 某 些 功 
能 〈 例 如 子 程序 调用 ) ， 则 需要 有 一 个 系统 栈 指针 。 对 于 虚拟 存储 器 系统 ， 可 能 会 有 一 个 页 表 指 
针 寄 存 器 。 最 后 ， 在 O 操作 控制 方面 也 可 能 需要 有 专门 的 寄存 器 。 

设计 控制 和 状态 寄存 器 组 织 时 有 几 个 因素 需 考虑 。 一 个 关键 的 考虑 是 对 操作 系统 的 支持 。 
某 些 类 型 的 控制 信息 是 专门 为 操作 系统 使 用 的 。 若 CPU 设计 者 对 将 要 使 用 的 操作 系统 有 基本 的 
了 解 ， 则 寄存 器 的 组 织 可 能 在 一 定 程度 上 为 该 操作 系统 定制 。 

另 一 个 关键 的 考虑 是 控制 信息 在 寄存 器 和 存储 器 之 间 的 分 配 。 一 种 普遍 的 做 法 是 将 存储 器 
最 前 面 (最 低地 址 ) 的 几 百 或 几 千 个 字 用 于 控制 目的 。 设 计 者 必须 决定 多 少 控 制 信息 应 在 寄存 
器 中 ， 多 少 应 在 存储 器 中 。 这 通常 要 在 成 本 和 速度 之 间 进 行 权 衡 。 
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12.2.3 ” 微 处 理 器 寄存 器 组 成 的 例子 

考察 和 比较 一 些 可 比 系统 的 寄存 器 组 成 是 有 指导 意义 的 。 本 节 我 们 考察 大 约 在 同一 时 期 设 
计 出 的 2 个 16 位 微 处 理 器 : Motorola MC68000 [STRI79] 和 Intel 8086 [MORS78] 。 图 12-3a 和 图 
12-3b 分 别 给 出 了 上 述 两 种 处 理 器 的 寄存 器 组 成 ， 像 存储 器 地 址 寄存 器 这 样 的 纯 内 部 寄存 器 未 在 
图 中 示 出 。 


通用 寄存 器 





数据 寄存 器 





a) MC68000 b) 8086 c) 80386-Pentium 4 


图 12-3 微 处 理 器 寄存 器 组 成 的 例子 


MC68000 将 它 的 32 位 寄存 器 分 成 8 个 数据 寄存 器 和 9 个 地 址 寄存 器 。8 个 数据 寄存 器 主要 
用 于 数据 操作 ， 并 在 寻 址 方式 中 用 作 变 址 寄存 器 。 寄 存 器 的 宽度 允许 8 位 、16 位 或 32 位 数据 操 
作 ， 具 体 取决 于 操作 码 。 地 址 寄存 器 包含 32 位 〈 不 分 段 ) 地 址 ， 其 中 两 个 寄存 器 亦 用 作 栈 指 
针 ， 一 个 用 于 操作 系统 ， 一 个 用 于 用 户 ， 这 取决 于 当前 的 执行 模式 。 这 两 个 寄存 器 都 编号 为 7， 
因为 任何 时 刻 只 能 一 个 在 使 用 。MC68000 还 包括 一 个 32 位 程序 计数 器 和 一 个 16 位 状态 寄存 器 。 

Motorola 设计 小 组 也 希望 有 一 个 很 规整 的 指令 集 而 不 带 有 专门 的 目的 寄存 器 。 对 代码 效率 的 
考虑 使 他 们 将 寄存 器 分 成 两 个 功能 组 件 ， 在 每 个 寄存 器 指定 符 上 节省 了 1 位 。 这 看 起 来 是 在 完全 
通用 性 和 代码 紧凑 性 之 间 的 一 个 合理 折 中 。 i 

Intel 8086 采取 另 一 种 不 同 的 方法 来 组 织 寄 存 器 ， 每 个 寄存 器 都 有 专门 的 用 途 ， 虽 然 某 些 寄 
存 器 也 可 通用 。8086 含有 4 个 16 位 数据 寄存 器 ， 它 们 亦 可 按 字 节 (8 位 ) 来 使 用 ; 还 含有 4 个 
16 位 的 指针 和 变 址 寄存 器 。 数 据 寄存 器 在 某 些 指令 中 可 用 作 通 用 寄存 器 ， 而 在 另 一 些 指令 中 它 
们 是 隐 含 被 使 用 的 。 例 如 ， 乘 法 指令 总 是 使 用 累加 器 。4 个 指针 寄存 器 亦 是 在 几 种 操作 中 隐 含 被 
使 用 ， 每 个 用 于 保存 段 内 位 移 。8086 还 有 4 个 段 寄存 器 ， 其 中 三 个 以 一 种 专门 的 隐 含 方式 来 使 
用 ， 分 别 指向 一 个 包含 当前 指令 的 段 (对 转移 指令 特别 有 用 ) ， 一 个 包含 数据 的 段 ， 一 个 包含 栈 
的 段 。 这 些 专门 的 隐 含 方式 的 使 用 ， 以 减少 灵活 性 为 代价 ， 提 供 了 编码 的 紧凑 性 。8086 还 包括 
一 个 指令 指针 寄存 器 和 一 组 状态 和 控制 标志 ， 其 中 每 个 状态 和 控制 标志 都 是 1 位 。 

通过 这 个 比较 可 以 看 清楚 的 一 点 是 ， 到 目前 为 止 ， 关 于 组 织 CPU 寄存 器 的 最 好 方式 还 没有 
一 个 普遍 接受 的 原则 [TOON81] 。 正 如 对 整个 指令 集 设计 的 情况 一 样 ， 也 有 众多 的 CPU 设计 观 
Ki, 这些 都 还 是 有 待 品评 的 事情 。 
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关于 寄存 器 组 织 设计 的 第 二 个 有 指导 意义 的 观点 说 明 如 图 12-3c 所 示 。 此 图 表示 了 Intel 
80386 [ELAY85] 的 用 户 可 见 寄存 器 的 组 织 。80386 是 32 位 微 处 理 器 ， 并 设计 成 8086 的 扩展 ” 。 
80386 使 用 32 位 寄存 器 。 然 而 ， 为 了 向 在 早先 机 器 上 写成 的 程序 提供 向 上 兼容 ，80386 将 原先 的 
寄存 器 组 织 舱 入 到 新 组 织 中 。 给 定 这 种 设计 限制 ， 这 个 32 位 微 处 理 器 的 寄存 器 组 织 设计 明显 在 
灵活 性 上 受到 制约 。 


12.3 指令 周期 
前 面 3. 2 节 已 描述 过 CPU 的 指令 周期 (参见 图 3-9)。 指 令 周 期 包括 如 下 子 周期 : 
。 取 指 (fetch): 将 下 一 条 指令 由 存储 器 读 和 人 CPU. 
© HUT (execute): 解释 操作 码 并 完成 指定 的 操作 。 
e 中断 (interrupt); 若 中 断 是 允许 的 并 且 有 中 断 发 生 ， 则 保存 当前 进程 的 状态 并 为 此 中 断 
服务 。 
现在 我 们 来 详细 描述 指令 周期 。 首 先 ， 必 须 引 入 一 个 另外 的 子 周期 ， 称 为 间接 周期 (indi- 


rect cycle) 。 


12.3.1 间接 周期 


在 第 11 章 我 们 已 看 到 ， 指 令 的 执行 可 能 涉及 一 个 
或 多 个 存储 器 中 的 操作 数 ， 它 们 每 个 都 要 求 一 次 存储 
器 访问 。 而 且 ， 若 使 用 间接 寻 址 ， 则 还 需要 额外 的 存 
储 器 访问 。 

可 把 间接 地 址 的 读 取 看 成 是 一 个 额外 的 指令 子 周 
期 ， 其 过 程 显示 于 图 12-4。 动 作 的 主线 由 交 蔡 的 取 指 
令 和 指令 执行 动作 组 成 。 取 来 一 条 指令 之 后 ， 要 对 它 
进行 检查 以 确定 是 否 需 要 间接 寻 址 。 如 果 是 ， 则 所 要 a 
求 的 操作 数 使 用 间接 寻 址 方式 取 来 。 在 执行 之 后 ， 可 ie demas 
能 有 一 个 中 断 在 取 下 一 条 指令 之 前 被 处 理 。 

观察 此 过 程 的 另 一 种 方式 如 图 12-5 所 示 ， 它 是 图 3-12 的 改进 版 。 它 更 准确 地 说 明了 指令 周 
期 的 实质 。 一 旦 取 来 一 条 指令 ， 它 的 操作 数 指定 符 必须 被 识别 。 然 后 读 取 存储 器 中 的 每 个 操作 
数 ， 这 个 过 程 可 能 要 求 间 接 寻 址 。 寄 存 器 操作 数 不 需 要 从 存储 器 读 取 。 一 旦 操作 被 执行 ， 可 能 需 
要 一 个 类 似 的 过 程 将 结果 存 人 主 存 。 





间接 间接 





图 12-5 指令 周期 状态 图 


© 因 MC68000 已 使 用 了 32 位 寄存 器 ， 所 以 它 的 全 32 位 扩展 MC68020 [MACG84] 采用 的 是 同样 的 寄存 器 组 织 。 
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12.3.2 ”数据 流 


指令 周期 期 间 ， 所 发 生 事件 的 实际 序列 取决 于 CPU 的 具体 设计 。 不 过 我 们 还 是 可 以 从 一 般 
意义 上 列 出 哪些 事件 是 应 该 要 发 生 的 。 假 定 一 个 CPU 有 一 个 存储 器 地 址 寄存 器 (MAR) 、 一 个 存 
储 器 缓冲 寄存 器 ( MBR) 、 一 个 程序 计数 器 (PC) 和 一 个 指令 寄存 器 (IR)。 

在 取 指 周期 ， 一 条 指令 由 存储 器 读 人 ， 图 12-6 显示 了 此 期 间 的 数据 流动 。 开 始 时 ，PC 存 有 
待 取 的 下 一 条 指令 的 地 址 。 这 个 地 址 被 传送 到 MAR 并 放 到 地 址 总 线 上 。 控 制 器 发 出 一 个 存储 器 
读 的 请 求 ， 存 储 器 把 结果 放 到 数据 总 线 上 ，CPU 将 其 复制 到 MBR， 然 后 传送 到 IR。 在 此 期 间 ， 
PC 增 1， 为 下 次 取 指令 做 好 准备 。 

一 旦 经 历 过 取 指 周期 ,控制 器 检查 IR 的 内 容 ， 以 确定 是 否 有 一 个 使 用 间接 寻 址 的 操作 数 指 
定 符 。 若 是 ， 则 进入 间接 周期 ， 如 图 12-7 所 示 ， 这 是 一 个 简单 周期 。MBR 最 右边 的 N 位 是 一 个 
地 址 引用 ， 被 传送 到 MAR。 然 后 ， 控 制 器 请 求 一 个 存储 器 读 ， 得 到 所 要 求 的 操作 数 地 址 ， 并 送 
入 MBR, 





MBR = 存储 缓冲 寄存 
MAR = 存储 地 址 寄存 : = 
R= Bes 址 数据 控制 
PC = 程序 计数 器 BR BR BR 
Al 12-6 数据 流 与 取 指 周期 图 12-7 数据 流 与 间接 周期 


取 指 和 间接 周期 是 简单 的 ， 并 且 是 可 预期 的 。 执 行 周 期 则 有 多 种 表现 形式 ， 具 体 是 哪 种 形式 取 
决 于 各 种 不 同 的 指令 里 哪 一 条 当前 在 IR 中 。 这 个 
周期 可 能 涉及 寄存 器 间 的 数据 传送 ， 对 存储 器 或 
LO 设备 的 读 或 写 ， 以 及 ALU 的 功能 使 用 。 

像 取 指 和 间接 周期 一 样 ， 中 断 周期 是 简单 
的 并 可 预期 的 〈 见 图 12-8 ) 。PC 的 当前 内 容 必 
须 被 保存 ， 以 便 在 中 断 之 后 CPU 能 恢复 先前 的 
动作 。 于 是 ，PC 的 内 容 传送 到 MBR， 将 被 写 人 
存储 器 。 为 此 目的 ， 一 个 专门 的 存储 器 位 置 被 





控制 器 装 入 MAR。 它 可 能 是 一 个 栈 指针 。 随 后 ， ie tee rem 
中 断 子 程序 的 地 址 装 入 PC。 结 果 是 ， 下 一 指令 
周期 将 以 取 此 相应 的 指令 而 开始 。 ”图 12-8 数据 流 与 中 断 周期 


12.4 ”指令 流水 线 技术 

随 着 计算 机 系统 的 发 展 ， 特 别 是 集成 电路 工艺 上 的 改进 ， 例 如 更 快 的 电路 ， 可 以 实现 更 高 的 
性 能 。 男 外 ，CPU 组 织 的 改进 也 能 改善 性 能 。 我 们 已 经 看 到 过 这 样 的 例子 ， 如 使 用 多 个 寄存 器 而 不 
是 单一 的 累加 器 ， 又 如 使 用 高 速 缓存 等 。 另 外 一 种 使 用 非常 普遍 的 组 织 方法 是 指令 流水 线 技术 。 
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12.4.1 流水 线 策略 


指令 流水 线 类 似 于 工厂 中 装配 线 的 使 用 。 装 配 线 利 用 了 这 样 一 个 事实 ， 即 一 个 产品 要 经 过 
几 个 制作 步骤 。 通 过 把 制作 过 程 安排 在 一 条 装 -> -一 

配 线 上 ， 多 个 产品 能 在 各 个 阶段 同时 被 加 工 。 
这 种 过 程 称 为 流水 处 理 (pipelining) ， 因 为 在 一 
条 流水 线 上 ， 当 先前 接收 的 输入 已 成 为 加 工 的 
结果 出 现在 另 一 端 时 ， 新 的 输入 又 在 一 端 被 接 
收 进 来 。 

将 这 种 概念 施加 到 指令 的 执行 上 ， 我 们 必 
须 认 识 到 ， 事 实 上 一 条 指令 的 执行 也 是 分 成 几 
个 步 又。 图 12.5 就 是 一 个 例子 ， 它 将 指令 周期 
分 成 10 个 顺序 的 任务 。 很 清楚 ， 这 里 应 有 实施 b) 扩 展 观点 
流水 线 技术 的 某 种 机 会 。 图 12.9 两 阶段 指令 流水 线 

作为 一 种 简化 的 方法 ， 考 虑 将 指令 处 理 分 
成 两 个 阶段 : 取 指 令 和 执行 指令 。 在 一 条 指令 执行 期 间 ， 主 存 可 能 没有 存 取 的 操作 。 此 时 主 存 能 
用 于 取 下 一 条 指令 ， 从 而 这 个 取 指 操作 与 当前 指令 的 执行 并 行 工 作 。 图 12-9a 描述 了 这 种 方法 。 
此 流水 线 有 两 个 独立 的 阶段 。 第 一 个 阶段 取 一 条 指令 并 缓存 它 ， 当 第 二 个 阶段 空闲 时 ， 将 第 一 个 
阶段 缓存 的 指令 输送 给 它 。 当 第 二 个 阶段 正在 执行 此 指令 时 ， 第 一 个 阶段 利用 未 使 用 的 存储 器 
周期 读 取 下 一 条 指令 并 缓存 它 。 这 称 为 指令 预 取 (instruction prefetch) 或 取 指 交合 (fetch over- 
lap) 。 注 意 这 种 方式 涉及 指令 缓存 (instruction bufftering) ， 因 此 需要 更 多 的 寄存 器 。 一 般 来 说 ， 
流水 处 理 都 需要 额外 的 寄存 器 用 以 在 流水 段 之 间 保 存 数 据 。 

显然 这 种 处 理 将 加 快 指令 的 执行 。 若 取 指 和 执行 这 两 个 阶段 是 相等 的 时 间 ， 则 指令 周期 时 
间 将 是 原来 的 一 半 。 然 而 ， 若 我 们 更 仔细 地 查看 这 个 流水 线 ( 见 图 12-9b) ， 将 会 看 到 实现 这 种 
执行 速度 的 翻 倍 是 不 太 可 能 的 ， 理 由 有 二 : 

(1) 执行 时 间 一 般 要 长 于 取 指 时 间 。 执 行将 涉及 读 取 和 保存 操作 数 以 及 完成 某 些 操作 。 于 
是 ， 取 指 阶段 可 能 必须 等 待 一 定 的 时 间 才 能 排 空 它 的 缓冲 器 。 

(2) 条 件 分 支 指令 使 得 待 取 的 下 一 条 指令 的 地 址 是 未 知 的 。 于 是 ， 取 指 阶段 必须 等 待 ， 直 
到 它 能 由 执行 阶段 得 到 下 一 条 指令 地 址 。 而 在 取 下 一 条 指令 时 执行 阶段 又 可 能 必须 等 待 。 

由 第 二 种 情况 造成 的 时 间 损 失 可 通过 推测 来 减少 。 一 个 简单 的 规则 如 下 : 当 一 条 条 件 分 支 
指令 由 取 指 阶段 传送 到 执行 阶段 时 ， 取 指 阶段 读 取 存 储 器 中 此 分 支 指令 之 后 的 指令 。 于 是 ， 若 转 
移 未 发 生 ， 则 没有 时 间 损 失 ; 若 转移 发 生 ， 则 已 读 取 的 指令 要 作废 ， 并 读 取 新 的 指令 。 

虽然 这 些 因 素 降 低 了 两 段 流水 线 的 潜在 效率 ， 但 还 是 带 来 某 种 加 速 。 为 获得 进一步 的 加 速 ， 
流水 线 必 须 有 更 多 的 阶段 。 让 我 们 考虑 指令 处 理 的 如 下 分 解 。 

MHS (FI): 读 下 一 条 预期 的 指令 到 缓冲 器 。 

© 译 码 指令 (DI): 确定 操作 码 和 操作 数 指定 符 。 

计算 操作 数 (C0): 计算 每 个 源 操作 数 的 有 效 地 址 ， 这 可 能 涉及 偏 移 寻 址 、 寄 存 器 间接 
址 、 间 接 寻 址 或 其 他 形式 的 地 址 计算 。 

取 操 作 数 (FO): 从 存储 器 取出 每 个 操作 数 。 寄 存 器 中 的 操作 数 不 需 要 取 。 

执行 指令 (El): 完成 指定 的 操作 。 若 有 指定 的 目的 操作 数位 置 ， 则 将 结果 写 人 此 位 置 。 

e SIRER (WO): 将 结果 存 人 存储 器 。 

按照 这 种 分 解 ， 各 个 阶段 所 需要 的 时 间 几 乎 是 相等 的 。 为 便于 说 明 ， 假 定 是 相等 的 时 间 。 图 
12-10 则 表示 了 一 个 这 样 的 6 段 流水 线 ， 它 能 将 9 条 指令 的 执行 时 间 由 54 个 时 间 单 位 减少 到 14 
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个 时 间 单 位 。 

以 下 是 几 点 说 明 : 此 图 假设 每 条 指令 都 通过 流水 线 的 6 个 阶段 , 但 并 不 总 是 这 种 情况 。 例 
如 ,一 条 LOAD 指令 就 不 需要 WO 阶段。 然而 ， 为 简化 流水 线 硬件 设计 ， 就 在 假定 每 条 指令 都 要 
求 这 6 个 阶段 的 基础 上 来 建立 时 序 。 还 有 ， 此 图 是 假定 所 有 阶段 都 能 并 行 完 成 ， 具 体 地 说 ， 是 假 
定 没有 存储 器 冲突 。 如 FIL FO 和 WO 都 涉及 存储 器 访问 ， 此 图 暗示 它们 是 能 同时 进行 的 。 大 多 
数 存储 器 系统 不 准许 这 样 ， 然 而 时 间 
可 能 所 要 求 的 值 在 cache 中 ， 或 者 
FO 或 WO 阶段 是 个 空 操作 。 于 是 ， 

多 数 情 况 下 ， 这 种 存储 器 冲突 并 指令 
不 会 减 慢 流水 处 理 速度 。 指令 2 

有 几 个 因素 限制 了 性 能 提升 。 指令 3 
若 6 个 阶段 不 全 是 相等 的 时 间 ， 指令 4 
则 正如 我 们 在 前 面 讨 论 的 两 阶段 “指令 5 
流水 线 那 样 ， 会 在 各 个 流水 阶段 指令 6 
涉及 某 种 等 待 。 另 一 困难 是 条 件 a7 
转移 指令 ， 它 能 使 若干 指令 的 读 
取 变 为 无 效 。 另 一 不 可 预料 的 事 
件 是 中 断 。 图 12-11 说 明了 条 件 转 
移 的 影响 ， 其 中 使 用 与 图 12-10 同 
样 的 程序 。 假 定 ， 指 令 3 是 一 个 可 
能 转 到 指令 15 的 条 件 转移 指令 。 a ee 
直到 指令 执行 之 前 ， 没 办 法 知道 
下 一 条 指令 到 底 是 哪 条 指令 。 此 
例 中 ,流水线 只 是 简单 地 按 顺 序 
装 人 下 一 条 指令 (指令 4) 并 继续 
执行 。 图 12-10 表示 转移 未 发 生 ， 
我 们 得 到 了 全 面 的 性 能 提升 。 图 
12-11 表示 的 是 转移 发 生 的 情况 ， 
但 这 直到 时 间 单 位 7 结束 时 才能 
确定 。 此 时 流水 线 必须 清除 那些 
已 取 来 的 无 用 指令 。 这 样 ， 在 时 
间 单 位 8， 指 令 15 进入 流水 线 。 
在 时 间 单 位 9 ~ 12 期 间 没 有 指令 完 
成 ， 这 是 由 于 我 们 不 能 预测 转移 图 12-11 条 件 转移 对 指令 流水 线 操作 的 影响 
是 否 发 生 所 导致 的 性 能 下 降 。 图 12-12 指出 考虑 到 转移 和 中 断 ， 流 水 线 所 需要 的 逻辑 。 

还 有 一 些 问题 ， 它 们 不 出 现在 简单 的 两 阶段 流水 线 中 。C0 阶段 可 能 需要 某 个 寄存 器 的 内 
容 ， 而 此 值 可 能 被 仍 在 流水 线 中 的 先前 指令 所 修改 。 其 他 的 寄存 器 和 存储 器 冲突 也 可 能 出 现 。 系 
统 必 须 考虑 到 处 理 这 类 冲突 的 逻辑 。 

为 清晰 起 见 ， 换 一 种 方式 来 查看 流水 线 操作 将 是 有 益 的 。 图 12-10 和 图 12-11 是 水 平方 向 表 
示 时 间 ， 每 行 表示 一 条 指令 的 执行 。 新 给 出 的 图 12-13 是 垂直 向 下 表示 时 间 的 进行 ， 而 每 一 行 表 
示 的 是 给 定时 间 点 的 流水 线 状态 。 在 图 12-13a (对 应 于 图 12-10) 中 ， 时 间 6 时 流水 线 已 满 ， 有 
6 条 不 同 的 指令 正在 流水 线 各 阶段 进行 ， 并 一 直 保 持 满 负荷 运行 ， 直 到 时 间 9; 假定 J 是 最 后 一 
条 待 执行 指令 。 在 图 12-13b (对 应 于 图 12-11) 中 ， 时 间 6 和 7 时 流水 线 是 满 的 。 在 时 间 7， 一 
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条 转移 指令 B 正 处 于 执行 阶段 ， 它 将 引发 转移 到 指令 I115。 此 时 ， 指 令 14 ~ D 都 要 由 流水 线 中 被 
清除 出 去 ， 于 是 ， 时 间 8 时 只 有 B 和 115 两 条 指令 在 流水 线 中 。 

从 前 面 的 讨论 ， 我 们 可 能 会 认为 流水 线 中 阶段 数目 越 多 ， 执 行 速度 越 快 。 但 IBM S/370 的 设 
计 者 指出 ， 有 两 个 因素 将 使 这 种 看 似 简 单 的 高 性 能 设计 失败 [ANDE67a] ， 而 且 这 些 观点 至 今 仍 
是 有 效 的 。 

(1) 流水 线 的 每 一 阶段 ， 都 会 有 某 些 开销 涉及 数据 在 缓冲 器 间 的 传送 ， 以 及 涉及 完成 各 种 
准备 和 递交 功能 。 这 些 开销 能 明显 地 使 单一 指令 总 的 执行 时 间 变 长 。 当 顺序 指令 之 间 发 生 逻 辑 
依赖 〈 这 种 逻辑 依赖 或 是 因为 大 量 使 用 了 分 支 指令 ， 或 是 因为 存储 器 访问 的 相关 性 ) 时 ， 这 个 
问题 就 变 得 特别 严重 。 

(2) 优化 流水 线 的 使 用 和 处 理 存储 器 及 寄存 器 相关 性 所 需 的 控制 逻辑 总 量 , 会 随 着 流水 线 
阶段 数 的 增长 而 急剧 增长 。 这 将 导致 这 样 一 种 情形 ， 阶 段 之 间 的 门 控 逻 辑 比 这 些 阶段 本 身 的 逻 
辑 还 要 复杂 。 

另 一 个 要 考虑 的 因素 是 锁 存 延迟 (latching delay) ， 即 流水 线 阶 段 之 间 的 缓冲 需要 一 定时 间 
来 完成 其 操作 ， 而 这 会 增加 指令 周期 的 时 间 。 

指令 流水 线 是 一 种 提高 性 能 的 强 有 力 技术 ， 但 需要 精心 设计 ， 以 合理 的 复杂 性 达到 最 优 的 效果 。 
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图 12-12 6 阶段 CPU 指令 流水 线 


图 12-13 ”流水 线 的 另 一 种 描述 方式 
12.4.2 ”流水 线性 能 

下 面 我 们 对 流水 线性 能 和 相对 加 速 予 以 简单 度量 (基于 [HWAN93] 中 的 讨论 )。 指 令 流 水 
线 的 周期 时 间 z， 是 在 流水 线 中 将 一 组 指令 推进 一 段 所 需 的 时 间 , 图 12-10 和 图 12-11 中 的 每 一 列 
都 代表 一 个 周期 时 间 ， 周 期 时 间 能 表示 成 : 


T=max[T;] +d=T, +d 1<isk 
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这 里 zi = 流水 线 第 i 段 的 电路 延迟 时 间 
Tn = 最 大 段 延迟 (通过 耗 时 最 长 段 的 延迟 ) 
k = 指令 流水 线段 数 
d = 锁 存 延 时 (数据 和 信号 从 上 一 段 送 到 下 一 段 所 需 的 段 间 锁 存 接收 时 间 ) 
通常 ， 延 时 d 等 于 时 钟 脉冲 的 宽度 并 且 r。 > >de MERA n 条 指令 在 进行 ,无 转移 发 生 。 
AT, ,为 阶段 流水 线 执行 所 有 n 条 指令 所 需 的 总 时 间 ， 则 有 : 
f..=[ke(n=13]2 (12.1) 
完成 第 1 条 指令 执行 需要 有 个 周期 。 完 成 其 余 n -1 ROBB n-1 个 周期 ?。 这 个 等 式 很 
容易 由 图 12-10 得 到 验证 ,第 9 条 指令 在 周期 14 时 完成 ， 于 是 有 : 
14= [6+(9-1)] 
使 用 指令 流水 线 相 对 于 不 使 用 流水 线 的 加 速 比 定义 为 : 
Lā nk T nk 
Ssp =Tk+(n-1)]@ + (n-1) {12.2 
图 12-14a 给 出 无 分 支 情况 下 加 速 比 随 指令 数 的 变化 关系 ， 当 "一 om 时 ，5, 一 k， 即 我 们 获得 
倍加 速 。 图 12-1 4b 给 出 加 速 比 随 指令 流水 线段 数 的 变化 关系 2。 在 这 种 情况 下 ， 加 速 比 能 接近 
进入 流水 线 而 且 无 转移 的 指令 数 。 于 是 ， 更 多 的 流水 线段 数 能 带 来 更 大 的 潜在 加 速 比 。 然 而 ， 增 
加 更 多 的 段 所 带 来 的 增益 ， 必 须 考虑 到 成 本 的 增加 、 段 间 延 时 的 增多 ， 以 及 遇 到 转移 指令 而 要 求 
清空 流水 线 的 这 些 事实 。 


加 速 因子 





1 2 4 8 16 32 64 128 
指令 数 (对 数 坐标 ) 


a) 





0 5 10 1S 20 


流水 线 阶段 数 
b) 


图 12-14 ”指令 流水 的 加 速 因子 





日 这 里 有 点 儿 不 精确 ， 仅 当 所 有 段 都 满 时 ， 周 期 时 间 才 等 于 7 的 最 大 值 ; 而 在 开始 的 1 个 或 少数 几 个 周期 内 周期 时 
间 值 要 小 一 些 。 
© 注意 ,图 12-14a 的 x 轴 是 对 数 标 度 。 图 12-14b 的 x 轴 是 线性 标 度 。 
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12.4.3 流水线 冒 险 


在 前 一 小 节 ， 我 们 提 到 某 些 情况 会 导致 流水 线 不 能 达到 理想 加 速 比 。 在 本 小 节 中 ， 我 们 将 更 
加 系统 地 考察 这 个 问题 。 第 14 章 介绍 了 超标 量 流水 线 组 织 中 的 复杂 性 后 ， 也 将 更 细致 地 回顾 这 
个 问题 。 

流水 线 冒 险 (pipeline hazard) 发 生 在 流水 线 或 流水 线 的 某 个 部 分 ， 因 为 某 些 条 件 不 允许 流 
水 线 继续 运行 ， 而 必须 停顿 (stall) 的 时 候 。 这 样 的 流水 线 停顿 也 通常 被 称 为 流水 线 空 泡 (pipe- 
line bubble), Æ 3 种 类 型 的 流水 线 冒 险 : 资源 冒险 、 数 据 冒 险 和 控制 冒险 。 

1. 资源 冒险 

资源 冒险 (resource hazard) 发 生 在 两 条 (或 多 条 ) 已 进入 流水 线 的 指令 需要 使 用 相同 资源 
的 时 候 。 结 果 就 是 在 流水 线 某 个 部 分 ， 这 些 指 令 必 须 串 行 执行 ， 而 不 是 并 行 执行 。 资 源 冒 险 在 有 
些 时 候 也 称 为 结构 冒险 (structural hazard) 。 

让 我 们 考察 一 个 简单 的 资源 冒险 例子 。 假 设 有 一 
个 简单 的 5 阶段 流水 线 ， 其 中 每 个 阶段 的 执行 时 间 是 
一 个 时 钟 周期 。 图 12-15a 显示 了 理想 的 运行 情况 ， 其 
中 每 个 时 钟 周期 都 有 一 条 新 指令 进入 流水 线 。 现 在 假 
设 主 存 只 有 一 个 端口 ， 所 有 的 指令 读 取 以 及 数据 装载 
和 保存 都 一 次 只 能 有 一 个 单独 操作 。 男 外 ,假设 没有 
高 速 缓存 。 在 这 种 情况 下 ， 从 内 存 装 载 一 个 操作 数 ， 
或 向 内 存 保存 一 个 操作 数 ， 与 从 内 存 读 取 指令 是 不 能 
同时 进行 的 。 图 12-15b 显示 了 这 种 情况 的 例子 ， 其 中 
假设 指令 Il 的 源 操作 数 在 内 存 中 而 不 是 在 寄存 器 中 。 
这 样 ， 流 水 线 的 取 指 阶段 在 进行 指令 B 的 读 取 之 前 ， 
必须 空闲 一 个 时 钟 周期 。 图 中 假设 其 他 操作 数 都 在 寄 ”。。 
存 器 中 。 

另 一 个 资源 冲突 的 例子 是 当 多 条 指令 可 以 进入 执 。 44 | Fi | DL} FO E 
行 阶段 ， 但 只 有 一 个 算术 逻辑 单元 的 时 候 发 生 的 情 b) 指 令 11 的 源 操 作 数 在 内 存 中 
况 。 资 源 冒 险 的 一 种 解决 办 法 是 增加 可 用 的 资源 ， 例 = 
如 提供 访问 主 存 的 多 个 端口 ， 以 及 提供 多 个 算术 逻辑 eet eee ere 
单元 。 

一 种 分 析 资 源 冲 突 ， 辅 助 流水 线 设 计 的 方法 是 预约 表 (reservation table) 。 
我 们 会 在 附录 I 中 考察 预约 表 。 

2. 数据 冒险 

数据 冒险 (data hazard) 发 生 在 对 一 个 操作 数位 置 的 访问 出 现 冲突 的 时 候 。 
通常 可 以 用 如 下 形式 来 描述 数据 冒险 : 程序 中 的 两 条 指令 依次 执行 ， 并 且 都 将 
访问 同一 个 内 存 或 寄存 器 操作 数 。 如 果 两 条 指令 的 执行 是 严格 串 行 的 ， 那 么 没 
有 问题 发 生 。 但 是 ， 如 果 这 两 条 指令 在 流水 线 中 运行 ,那么 有 可 能 操作 数 会 不 按 次 序 更 新 ， 从 而 
导致 与 严格 串 行 执行 不 一 样 的 结果 。 换 名 话说， 就 是 由 于 使 用 了 流水 线 ， 导 致 程序 运行 产生 了 不 
正确 的 结果 。 

作为 一 个 例子 ， 考 虑 下 面 的 x86 机 器 指令 序列 : 


ADD EAX, EBX /* EAX = EAX + EBX 
SUB ECX, EAX /* ECX = ECX - EAX 


第 一 条 指令 把 32 位 寄存 器 EAX 和 EBX 中 的 内 容 相 加 ， 把 结果 保存 回 EAX 寄存 器 。 第 二 条 





指令 
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指令 从 ECX PRA EAX 的 值 ， 并 把 结果 保存 回 ECX。 图 12-16 显示 了 流水 线 的 行为 。ADD 指令 
在 第 5 阶段 结束 之 前 才 会 更 新 寄存 器 EAX， 这 发 生 在 时 钟 周期 5。 但 是 SUB 指令 在 它 执行 的 第 2 
阶段 就 需要 EAX 的 最 新 值 ， 这 发 生 在 时 钟 周期 4。 要 保证 正确 的 操作 ， 流 水 线 必须 停顿 2 个 时 钟 
周期 。 这 样 ， 在 缺乏 专门 硬件 和 特殊 的 规避 算法 条 件 下 ， 这 一 数据 冒险 导致 流水 线 的 运行 效率 
降低 。 
有 3 种 类 型 的 数据 冒险 : 
e 写 后 读 (Read After Write, RAW) 或 真相 关 (true dependency): 一 条 指令 改写 一 个 寄存 
器 或 内 存 位 置 ， 而 后 续 的 指令 从 所 改写 的 寄存 器 或 内 存 位 置 读 取 数 据 。 如 果 在 写 操作 完 
成 之 前 ， 读 操作 就 开始 进行 ， 那 么 就 会 发 生 冒 险 。 ' 
o 读 后 写 (Write After Read, WAR) 或 反 相 关 (antidependency) : 一 条 指令 读 一 个 寄存 器 或 
内 存 位 置 ， 而 后 续 的 指令 将 改写 该 寄存 器 或 内 存 位 置 的 内 容 。 如 果 在 读 操 作 完 成 之 前 ， 
写 操作 就 开始 进行 ， 那 么 就 会 发 生 冒 险 。 
写 后 写 (Write After Write, WAW) 或 输出 相关 (output dependency): 两 条 指令 要 改写 同 
一 个 寄存 器 或 内 存 位 置 。 如 果 这 两 条 指令 的 写 操 作 发 生 次 序 与 期 望 的 次 序 相 反 ， 那 么 就 
会 发 生 冒 险 。 
图 12-16 显示 了 一 个 RAW 型 的 冒险 。 另 外 两 种 类 型 的 冒险 在 第 14 章 有 细致 深入 的 讨论 。 





图 12-16 数据 冒险 的 例子 


3. 控制 冒险 

控制 冒险 (control hazard) ， 又 称 为 分 支 冒 险 (branch hazard) ， 发 生 在 流水 线 对 分 支 转移 做 
出 了 错误 的 预测 ， 因 此 读 取 了 在 后 期 必须 取消 的 指令 之 时 。 我 们 接 下 来 讨论 处 理 控制 冒险 的 各 
种 办 法 。 


12.4.4 ”处 理 分 支 指令 


设计 指令 流水 线 的 一 个 主要 问题 是 ， 保 证 有 一 个 稳定 的 指令 流 进 入 流水 线 的 最 初 几 个 阶段 。 
正如 我 们 已 看 到 的 ， 主 要 的 障碍 是 条 件 分 支 指令 。 这 种 指令 的 特点 是 ， 直 到 指令 实际 被 执行 之 
前 ， 不 可 能 确定 转移 是 否 发 生 。 

已 有 几 种 方法 用 于 处 理 条 件 分 支 指令 : 

e 多 个 指令 流 (multiple streams) 

e 预 取 分 支 目标 (prefetch branch target) 

© 循环 缓冲 器 (loop buffer) 

e 分 支 预测 (branch prediction ) 

e 延迟 分 支 (delayed branch) 

1. 多 个 指令 流 

一 个 简单 的 流水 线 之 所 以 蒙受 分 支 指令 带 来 的 惩罚 ， 在 于 它 必 须 在 取 下 一 条 指令 时 做 出 二 
选 一 的 选择 ， 而 且 其 选择 可 能 是 错 的 。 一 个 强制 的 方法 是 复制 流水 线 的 开始 部 分 ， 并 允许 流水 线 
同时 取 这 两 条 指令 ， 使 用 两 个 指令 流 。 这 种 方法 有 两 个 问题 : 
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© 使 用 多 个 流水 线 ， 会 有 对 寄存 器 和 存储 器 访问 的 竞争 延迟 。 
© 在 原先 的 分 支 判断 还 没 解 决 之 前 ， 可 能 又 有 另外 的 分 支 指令 进入 流水 线 (不 管 哪 一 路 ) 。 
这 样 又 需要 添加 指令 流 。 

尽管 有 这 些 缺 点 ， 这 个 策略 也 能 改善 性 能 。 使 用 两 条 或 多 条 指令 流水 线 的 例子 是 IBM 370/ 
168 和 IBM 3033 机 。 

2. 预 取 分 支 目 标 

识别 出 一 个 条 件 分 支 指令 时 ， 除 了 取 此 分 支 指令 之 后 的 指令 外 ， 分 支 目标 处 的 指令 也 被 取 
来 。 这 个 目标 被 保存 直到 分 支 指令 被 执行 。 若 是 分 支 发 生 ， 则 目标 已 经 被 预 取 来 了 。 

IBM 360/91 使 用 这 种 方法 。: 

3. 循环 缓冲 器 

循环 缓冲 器 是 由 流水 线 指令 取 指 阶段 维护 的 一 个 小 的 但 极 高 速 的 存储 器 ， 含 有 条 最 近 顺 序 
取 来 的 指令 。 若 一 个 转移 将 要 发 生 ， 硬 件 首先 检查 转移 目标 是 否 在 此 缓冲 器 中 。 若 是 ， 则 下 一 条 
指令 由 此 缓冲 器 取得 。 循 环 缓冲 器 有 三 个 好 处 : 

(1) 采用 指令 预 取 ， 循 环 缓冲 器 将 含有 某 些 地 址 在 当前 指令 地 址 之 前 的 指令 。 于 是 ， 顺 序 
取 来 的 指令 都 可 能 被 使 用 而 不 再 需要 通常 的 存储 器 访问 时 间 。 

(2) 若 一 个 转移 的 目标 恰恰 是 在 此 转移 指令 之 前 的 少数 几 个 位 置 上 ， 则 目标 已 在 缓冲 器 中 。 
这 对 于 相当 普遍 的 IF-THEN 和 IF-THEN-ELSE 序列 特别 有 用 。 

(3) 这 一 策略 非常 适合 处 理 循环 或 迭代 ， 因 此 命名 为 循环 缓冲 器 。 若 循环 缓冲 器 充分 大 ， 
足以 容纳 循环 的 全 部 指令 ， 则 这 些 指令 只 需要 第 一 次 循环 时 由 存储 器 取 来 ， 后 面 的 循环 不 需要 
再 取 指 令 。 

从 原理 上 讲 ， 循 环 缓冲 器 类 似 于 指令 高 速 缓存 。 不 同 在 于 ， 循 环 缓冲 器 只 保留 顺序 的 指令 ， 
因而 容量 较 小 ， 成 本 也 较 低 。 

图 12-17 给 出 一 个 循环 缓冲 器 的 例子 。 若 此 缓冲 ”转移 地 址 
器 容纳 256 字 节 ， 并 且 使 用 字 节 寻 址 ， 则 转移 地 址 
的 低 8 位 可 用 于 对 缓冲 器 的 索引 。 而 其 余 的 高 有 效 
位 被 检查 ， 以 确定 转移 目标 是 否 已 在 此 缓冲 器 所 捕 mey eun 
获 的 上 下 文中 。 . | 

使 用 循环 缓冲 器 的 机 器 ， 有 CDC 的 某 些 机 器 





(Star-100 、6600 、7600 ) 和 CRAY-1, Motorola 68010 高 地 址 位 

使 用 了 一 种 特殊 形式 的 循环 缓冲 器 ， 用 于 执行 涉及 aii aiid 

DBcc (递减 并 依 条 件 转移 ) 指令 的 3 指令 循环 ( 见 图 12-17 ”循环 缓冲 器 

习题 12. 14) 。 此 时 维持 着 一 个 3 字 缓 冲 器 ， 处 理 器 重复 执行 这 些 指令 直到 满足 循环 结束 条 件 。 


4. 分 支 预测 

已 有 几 种 不 同 技术 用 于 预测 转移 是 否 将 发 生 。 其 中 应 用 最 普遍 的 是 : 

e 预测 绝 不 发 生 (predict never taken) 

e 预测 总 是 发 生 (predict always taken) 

o 依 操 作 码 预测 (predict by opcode) 

e 发 生 / 不 发 生 切 换 (taken/not taken switch) 

e 转移 历史 表 (branch history table) 

前 三 种 方法 是 静态 的 ， 它 们 不 取决 于 条 件 转移 指令 的 过 去 执行 历史 。 后 两 种 方法 是 动态 的 ， 
它们 取决 于 执行 的 历史 。 

前 两 种 方法 最 简单 ， 它 们 或 者 总 是 假定 转移 不 发 生 而 继续 顺序 取 指 令 ， 或 者 总 是 假定 转移 
发 生 而 从 转移 目标 处 取 指 令 。 其 中 预测 绝 不 发 生 转移 时 所 有 分 支 预测 方法 中 最 广泛 使 用 的 方法 。 
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分 析 程 序 行 为 的 研究 已 说 明 ， 条 件 分 支 的 转移 发 生 概率 高 于 50% [LILJ8 ] 。 于 是 ， 若 由 每 
条 路 径 预 取 的 代价 都 是 相同 的 ， 那 么 总 是 由 转移 目标 地 址 的 预 取 ， 应 当 比 总 是 由 顺序 路 径 预 取 
能 给 出 更 好 的 性 能 。 然 而 ， 在 一 个 分 页 的 机 器 中 。 由 转移 目标 的 预 取 要 比 顺序 预 取 下 一 条 指令 更 
可 能 引起 缺 页 ， 故 必须 考虑 到 这 种 性 能 的 损害 。 可 使 用 一 种 规避 机 制 来 减少 这 种 损失 。 

最 后 一 种 静态 方法 是 依据 转移 指令 的 操作 码 进行 判定 。 处 理 器 假定 ， 对 某 些 条 件 分 支 指令 
的 操作 码 将 总 是 发 生 转 移 ， 对 另外 的 总 是 不 发 生 转 移 。 [ LILJ88 ] 报告 这 种 策略 的 成 功 概率 大 
US Bie 

动态 分 支 预测 策略 ， 试 图 通过 记录 条 件 分 支 指令 在 程序 中 的 历史 来 改善 预测 的 准确 度 。 例 
如 ， 每 个 条 件 分 支 指令 可 有 与 之 相关 联 的 一 位 或 几 位 ， 它 们 反映 此 指令 的 最 近 历 史 。 这 些 位 称 为 
发 生 /不 发 生 切 换 ， 它 们 指挥 处 理 器 在 下 次 遇 到 此 指令 时 产生 具体 的 判定 。 一 般 ， 这 些 位 不 是 保 
存在 主 存 中 ， 而 是 保存 在 一 个 暂时 的 高 速 存 储 装置 中 。 一 种 可 能 是 把 这 些 位 与 对 应 的 已 在 高 速 
缓存 (cache) 中 的 条 件 分 支 指令 相关 联 ， 当 这 种 指令 由 cache 替换 出 时 其 历史 位 也 相应 丢失 。 
另 一 种 可 能 是 维护 一 个 小 型 表 ， 其 中 每 个 表 项 有 最 近 执 行 的 转移 指令 及 其 一 位 或 几 位 相关 位 。 
处 理 器 能 像 对 待 cache 一 样 地 访问 这 种 关联 表 ， 或 者 通过 使 用 分 支 指令 地 址 的 低 序 位 来 访问 表 。 

以 单个 位 所 能 记录 的 ， 只 是 这 条 指令 最 后 一 次 执行 是 否 发 生 转 移 。 这 种 单个 位 方法 的 不 足 ， 
表现 在 像 循 环 指令 这 样 的 几乎 总 是 发 生 转 移 的 条 件 分 支 指令 使 用 时 。 对 一 个 历史 位 ， 预 测 错误 
将 出 现 两 次 ， 一 次 是 进入 循环 时 ， 一 次 是 退出 循环 时 。 

若 使 用 两 位 ， 则 它们 能 用 来 记录 相关 指令 的 最 后 两 
次 执行 情况 或 是 记录 某 种 其 他 样式 的 状态 。 图 12-18 表示 
了 一 种 典型 的 方法 ( 男 一 种 可 能 的 样式 见习 题 12.5) 。 假 
定 算 法 由 流程 图 的 左上 角 开 始 。 对 一 给 定 的 条 件 分 支 指 
令 ， 只 要 连续 两 次 遇 到 的 都 是 发 生 转 移 ， 则 算法 预测 下 
一 次 转移 要 发 生 。 如 果 一 次 预测 失误 ， 算 法 继续 预测 下 
一 次 转移 将 发 生 。 仅 当 连 续 两 次 都 不 发 生 转 移 ， 算 法 才 
走 到 流程 图 的 右边 部 分 。 接 下 来 预测 转移 不 发 生 ， 直 到 
连续 两 次 发 生 转 移 。 于 是 ， 算 法 是 连续 两 次 失误 才 更 改 
预测 判定 。 

判定 过 程 用 有 限 状态 机 法 能 表示 得 更 紧凑 ， 如 
图 12-19 所 示 。 有 限 状 态 机 表示 法 为 正式 文献 普遍 采用 。 

使 用 刚才 描述 的 历史 位 方法 有 一 个 缺点 : BAER 
移 发 生 ， 转 移 目标 指令 并 不 能 马上 取得 ， 直 到 作为 条 件 
分 支 指令 操作 数 的 目标 地 址 被 解析 后 才能 取 到 。 若 判定 
一 经 做 出 ， 就 能 立刻 开始 取 指 令 ， 可 实现 更 高 的 效率 。 
为 此 ， 必 须 保 存 更 多 的 信息 于 一 种 称 为 分 支 目 标 缓冲 器 
(branch target buffer) 或 分 支 历 史 表 (branch history table) 
的 结构 中 。 图 12-18 “分支 预测 流程 图 

转移 历史 表 是 一 个 与 流水 线 取 指 令 阶 段 相 关联 的 小 
型 高 速 缓冲 存储 器 。 每 个 表 项 由 三 个 元 素 组 成 : 分 支 指令 的 地 址 ， 记 录 这 条 指令 转移 状况 的 历史 
位 ， 有 关 它 的 目标 指令 的 信息 。 在 多 数 的 建议 和 实现 中 ， 表 项 第 三 个 字段 保存 的 是 目标 指令 的 地 
址 。 另 一 种 可 能 是 直接 保存 目标 指令 。 这 里 的 权衡 考虑 是 清楚 的 : 保存 目标 地 址 可 使 表 的 规模 较 
小 ， 但 与 保存 目标 指令 相 比 却 要 花费 较 多 的 取 指 令 时 间 [RECH98] 。 

图 12-20 将 这 种 策略 与 预测 绝 不 发 生 策略 做 了 对 照 。 对 后 一 种 策略 ， 取 指 阶段 总 是 由 顺序 下 
一 地 址 取 指 令 。 若 一 个 转移 发 生 ， 处 理 器 中 的 某 种 逻辑 检测 到 这 个 事件 发 生 ， 于 是 指挥 由 目标 地 
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址 处 取 下 一 指令 ( 男 外 还 要 清空 流水 线 ) 。 转 移 历史 表 作 为 cache 对 待 ， 每 次 预 取 触发 一 次 转移 
历史 表 中 的 查找 。 若 未 发 现 匹配 ， 则 下 
一 顺序 地 址 用 于 取 指 。 若 发 现 匹 配 ， 依 “全 4 
据 指令 状态 进行 预测 ; 或 是 下 一 顺序 地 
址 ， 或 是 转移 目标 地 址 ， 将 被 送 给 选择 
1 

当 分 支 指令 执行 时 ， 执 行 阶 段 将 其 
结果 通知 转移 历史 表 的 控制 逻辑 。 指 令 
状态 被 修改 以 反映 正确 或 不 正确 的 预 
测 。 若 预测 不 正确 ， 则 选择 逻辑 重 定向 
到 正确 地 址 以 便 下 次 取 指 。 当 碰 到 的 一 
个 条 件 分 支 指令 不 在 表 中 时 ， 则 它 被 添 
加 到 表 中 ， 而 一 个 现 有 项 被 删除 。 这 里 
会 使 用 第 4 章 讨论 过 的 某 种 cache 替换 
算法 。 

转移 历史 方法 的 一 个 改进 版 本 是 称 为 
两 级 (two-level) 或 基于 关联 ( correla- 
tion-based) 的 转移 历史 方法 [YEHol ]。 
这 种 方法 基于 如 下 假设 : 在 循环 结束 处 
的 分 支 ， 一 个 特定 分 支 指令 的 过 去 历史 ， 
将 是 其 未 来 行为 的 很 好 预测 器 。 对 于 更 
为 复杂 的 控制 流 结构 ， 分 支 的 方向 经 常 
与 相关 的 分 支 指令 方向 有 关 。 一 个 例子 
是 if-then-else 或 case 结构 。 可 能 采取 的 
策略 很 多 。 一 种 典型 的 做 法 是 ， 联 合 使 
用 全 局 转移 历史 ( 即 最 近 执 行 的 分 支 指 
令 的 历史 ， 而 不 仅仅 是 当前 执行 的 分 支 
指令 历史 ) 与 当前 分 支 指令 的 历史 。 通 
常 的 结构 是 定义 为 一 个 (m, n) 关联 预 
测 右 。 该 预测 器 使 用 最 近 m 个 分 支 指令 
的 行为 ， 从 2" 个 nn 位 分 支 预 测 器 中 选择 
一 个 ， 作 为 当前 分 支 指令 的 预测 器 。 换 
句 话说 ， 对 于 一 个 给 定 的 分 支 指令 ， 最 
近 m 条 分 支 指 令 可 能 发 生 的 每 个 组 合 都 TE 
保留 了 一 个 位 历史 记录 。 b) 转移 历史 表 策 略 

5. 延迟 分 支 图 12-20 处理 分 支 指令 

改进 流水 性 能 的 另 一 可 能 方法 是 自 
动 重 排 程 序 中 的 指令 ， 这 样 可 以 把 一 条 分 支 指令 移 到 实际 所 期 望 的 位 置 之 后 。 这 种 方法 将 在 第 
13 章 讨 论 。 












序 地 址 
分 支 目标 
指令 地 址 ”地址 ”状态 










IPFAR= 指 令 前 级 
地 址 寄存 器 


12.4.5 Intel 80486 的 流水 线 


一 个 有 指导 意义 的 指令 流水 线 例 子 是 Intel 80486 处 理 器 的 指令 流水 线 。80486 处 理 器 实现 了 
一 个 5 段 流 水 线 ， 如 下 所 示 : 
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取 指 (fetch): 指令 由 cache 或 外 部 存储 器 取 来 ， 并 被 放 人 两 个 16 字 节 预 取 缓冲 器 中 的 某 
一 个 。 取 指 阶段 的 目标 是 ， 只 要 旧 的 数据 被 指令 译 码 器 用 掉 ， 立 即 以 新 数据 填充 预 取 组 
冲 器 。 因 为 指令 是 可 变 长 的 (不 计 前 级，1 至 11 字 节 )， 故 预 取 器 的 状态 相对 于 流水 线 
的 其 他 阶段 是 由 指令 到 指令 变动 的 。 平 均 而 言 ， 每 个 16 字 节 的 缓冲 器 大 约 装 人 5 条 指令 
[CRAW90]。 取 指 阶段 的 操作 独立 于 其 他 阶段 以 保持 预 取 缓冲 器 的 满载 。 

译 码 阶段 1 (decode stage 1, D1): 所 有 的 操作 码 和 寻 址 方式 信息 在 D 阶段 被 译 码 ， 所 
要 求 的 信息 以 及 指令 长 度 信 息 最 多 也 只 占据 指令 的 前 3 个 字 节 ， 于 是 ，3 字 节 由 预 取 缓冲 
器 传送 到 D1 阶段 ，D1 译 码 器 则 能 指挥 D2 阶段 计算 其 余 的 信息 〈 偏 移 量 和 立即 数 ) ， 这 
些 是 D1 译 码 所 不 涉及 的 。 

译 码 阶段 (decode stage 2, D2): D2 阶段 将 每 个 操作 码 扩展 成 对 ALU 的 控制 信号 。 它 
还 控制 更 复杂 寻 址 方式 的 计算 。 ， 

执行 〈execute，EX) : 这 一 阶段 包括 ALU 运算 cache 访问 和 寄存 器 修改 ， 

5E] (write back, WB): 如 果 需 要 ， 这 一 阶段 更 改 寄 存 器 和 在 前 面 执行 阶段 修改 过 的 状 
态 标 志 。 知 当前 指令 要 更 改 存储 器 ， 则 计算 结果 值 同 时 被 送 到 cache 和 总 线 接口 的 写 缓冲 
中 。 

通过 采用 两 个 译 码 段 ， 该 流水 线 能 支持 接近 每 时 钟 周 期 一 条 指令 的 吞吐 率 。 复 杂 指 令 和 条 
件 分 支 指令 会 降低 这 个 吞吐 率 。 

图 12-21 显示 了 此 流水 线 操 作 的 
例子 。 图 12-21a 表示 ， 当 要 求 存 储 器 
访问 时 ， 并 没有 延 时 引入 到 流水 线 中 ， 
然而 ， 正 如 图 12.21b 表示 的 那样 ， 对 a) 在 流水 线 中 无 数据 装 入 延迟 
于 一 个 用 于 计算 存储 器 地 址 的 值 ， 可 
能 引入 延 时 。 也 就 是 说 ， 若 一 个 值 由 
存储 器 装 人 寄存 器 ， 而 那个 寄存 器 又 
要 用 作 下 一 条 指令 的 基 址 寄存 器 ， 则 
处 理 需 要 停顿 一 个 时 钟 周 期 。 在 此 例 
中 ,第 一 条 指令 的 EX 阶段 处 理 器 访 
问 cache， 然 后 在 WB 阶段 将 所 取得 的 
值 存 信 寄存器。 然而， 下 一 条 指令 在 
它 的 D2 阶段 就 需要 这 个 寄存 器 的 值 。 BABEL OSE PIKER 
当 它 的 D2 阶段 与 前 一 指令 的 WB 阶段 对 齐 时 ， 一 个 旁 路 信号 通路 允许 D2 阶段 去 访问 正 被 WB 阶 
段 所 使 用 的 同一 数据 ， 这 样 节省 了 一 个 流水 段 时 间 。 

图 12-21e 说 明了 一 条 分 支 指令 的 时 序 。 假 定 转移 发 生 ， 比 较 指 令 在 其 WB 阶段 更 新 条 件 码 ， 
一 个 旁 路 信号 通路 允许 分 支 指令 的 EX 阶段 能 同时 使 用 这 些 新 条 件 码 。 在 分 支 指令 的 EX 阶段 ， 
处 理 器 并 行 地 运行 一 个 猜测 取 指 周期 来 读 取 转移 目标 指令 。 若 处 理 器 确认 转移 条 件 不 成 立 ， 它 
将 作废 这 个 预 取 来 的 转移 目标 指令 ， 并 继续 执行 下 一 顺序 指令 (已 被 另 一 路 预 取 缓 冲 器 预先 取 
来 ， 并 被 译 码 ) 。 


12.5 x86 系列 处 理 器 


x86 的 组 成 结构 随 着 时 间 不 断 发 生 显著 变化 。 本 节 我 们 考察 最 新 x86 系列 处 理 器 组 成 的 一 些 
细节 ， 并 集中 介绍 各 个 处 理 器 的 共同 结构 要 素 。 第 14 章 会 考察 x86 系列 处 理 器 超标 量 方面 的 特 
点 。 第 18 章 考察 多 核 组 成 结构 。 图 4-18 曾 给 出 Pentium 4 处 理 器 组 织 结构 的 概要 。 


MOV Regl,Meml 
MOV Reg] ,Reg2 
MOV Mem2,Regl 








MOV Regl,Meml 
| MOV Reg2.(Regl) 


CMP Regl.Imm 
Jee 目标 
IEL 


9) 转移 指令 时 序 
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12.5.1 寄存 器 组 成 


x86 系列 处 理 器 的 寄存 器 组 织 包括 如 下 类 型 的 寄存 器 ( 见 表 122)。 

。 通用 寄存 器 (general); x86 有 8 个 32 位 通用 寄存 器 ( 见 图 12-3c)。 它 们 可 由 所 有 类 型 的 
x86 指令 使 用 ， 也 可 用 来 保存 用 于 地 址 计算 的 操作 数 。 此 外 ， 某 些 寄 存 器 亦 服务 于 专门 目 
的 。 例 如 ， 字符 串 指令 使 用 ECX、ESI 和 EDI 寄存 器 的 内 容 作为 操作 数 ， 无 需 指令 中 有 
对 这 些 寄存 器 的 显 式 引用 。 这 样 做 的 结果 是 ， 某 些 指令 能 更 紧凑 地 编码 。 在 64 位 模式 
中 ， 有 16 个 64 位 的 通用 寄存 器 。 

© RAGE (segment): x86 有 6 个 16 位 段 寄 存 器 ， 正 如 第 8 章 所 讨论 的 ， 它 们 容纳 索引 段 
表 的 段 选择 符 。 代 码 段 (CS) 寄存 器 引用 含有 正 被 执行 指令 的 段 。 栈 段 (SS) 寄存 器 引 
用 含有 用 户 可 见 栈 的 段 。 其 余 的 段 寄存 器 (DS, ES, FS, GS) 允许 用 户 一 次 可 访问 多 达 
4 个 分 开 的 数据 段 。 

。 标志 寄存 器 (flag): 32 位 的 EFLAGS 寄存 器 容纳 条 件 码 和 各 种 模式 位 。 在 64 位 模式 中 ， 
该 寄存 器 被 扩展 到 64 位 ， 并 被 称 为 RFLAGS 寄存 器 。 在 当前 的 x86 体系 结构 定义 中 ， 
RFLAGS 寄存 器 的 高 32 位 未 被 使 用 。 

。 指令 指针 寄存 器 (instruction pointer): 存 有 当前 指令 的 地 址 。 


表 12-2 x86 处 理 器 的 寄存 器 
a) 32 位 模式 的 整数 单元 













































































































类 型 数目 KE (位) 目的 
通用 8 32 通用 用 户 寄存 器 
段 6 16 含有 段 选择 符 
标志 (EFLAGS) 1 32 状态 和 控制 位 
一 一 一 一 一 
指令 指针 1 32 指令 指针 
b) 64 位 模式 的 整数 单元 
类 型 数目 KÆ (位 ) 目的 
通用 16 32 通用 用 户 寄存 器 
Br 6 16 含有 段 选 择 符 
标志 (RFLAGS) 1 64 状态 和 控制 位 
指令 指针 _ | 1 | 64 指令 指针 
c) 浮 点 单元 
类 型 | 数目 目的 
数值 8 保持 浮 点 数 
控制 1 控制 位 
状态 1 状态 位 
标记 字 1 16 标示 数值 寄存 器 的 内 容 
指令 指针 1 48 指向 被 异常 中 断 的 数据 
数据 指针 指向 被 异常 中 断 的 数据 





还 有 一 些 寄 存 器 专门 用 于 浮 点 单元 : 
。 数值 寄存 器 (numeric): 每 个 寄存 器 保存 一 个 扩展 精度 的 80 位 浮 点 数 。 这 样 的 寄存 器 有 
个 ， 它 们 的 功能 像 一 个 栈 ， 指 令 集中 有 相应 的 压 人 和 弹出 指令 可 用 于 对 它们 进行 操作 。 
。 控制 寄存 器 (control): 16 位 的 控制 寄存 器 含有 控制 浮 点 单元 操作 的 控制 位 ， 包 括 舍 人 类 
型 控制 ， 单 、 双 或 扩展 精度 控制 ， 以 及 禁止 或 允许 各 种 异常 条 件 的 位 。 
。 状态 寄存 器 (status): 16 位 状态 寄存 器 包含 反映 浮 点 单元 当前 状态 的 位 ， 包 括 一 个 指向 
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数值 寄存 器 栈 项 的 3 位 指针 、 报 告 最 后 运算 结果 的 条 件 码 ， 以 及 异常 标志 。 
e 标记 字 寄 存 器 (tag word): 这 个 16 位 寄存 器 为 8 个 浮 点 数值 寄存 器 每 个 保留 2 位 标记 ， 
它们 用 于 指示 相应 寄存 器 内 容 的 属性 ， 四 种 可 能 值 是 有 效 、 零 、 特 殊 数 (NaN, EF, 
非 规格 化 ) 和 空 。 这 些 标 记 人 允许 程序 在 不 对 寄存 器 中 的 实际 数据 进行 复杂 解析 的 情况 下 ， 
检查 数值 寄存 器 中 的 内 容 。 人 例如， 进行 现场 切换 时 ， 处 理 器 不 需要 保存 那些 标记 为 
空 ”的 浮 点 寄存 器 。 
上 述 寄 存 器 的 大 多 数 是 很 好 理解 的 ， 下 面 简要 地 对 几 个 寄存 器 做 进一步 说 明 。 
1. EFLAGS 寄存 器 
EFLAGS 寄存 器 (参见 图 12-22) 指出 处 理 器 的 状态 ， 并 帮助 控制 处 理 器 的 操作 。 它 包括 表 
10-9 所 定义 的 6 个 条 件 码 (进位 、 奇 偶 、 辅 助 进 位 、 零 、 符 号 、 溢 出 ) ， 它 们 报告 一 次 整数 运算 
的 结果 。 另 外 ， 此 寄存 器 还 有 一 些 位 可 看 作 是 控制 位 ， 它 们 是 : 
。 自 陷 标志 (trap flag); 当 此 TF 位 置 位 时 ， 每 条 指令 执行 后 都 引起 一 个 中 断 ， 这 可 用 于 
中 断 允 许 标志 (interrupt enable flag): 当 此 正 位 置 位 时 ， 处 理 器 将 响应 外 部 中 断 。 
e 方向 标志 (direction flag): 此 DF 位 确定 串 行 处 理 指令 是 递增 还 是 递减 16 位 寄存 器 SI 和 
DI (16 位 操作 ) 或 32 位 寄存 器 ESI 和 EDI (32 位 操作 ) 。 
MO 特权 级 (1/0 privilege flag): 当 此 IOPL 位 置 位 时 ， 保 护 模 式 期 间 所 有 对 IO 设备 的 
访问 都 将 引起 处 理 器 产生 一 个 异常 。 
© 重新 开始 标志 (resume flag): 此 RF 位 允许 程序 员 禁 止 调 试 异 常 ， 这 样 在 一 次 调试 异常 
之 后 指令 能 重新 开始 ， 不 会 立即 又 引起 另 一 次 调试 异常 。 
对 齐 检查 (alignment check): 若 一 个 字 或 双 字 被 寻 址 在 一 个 非 字 或 非 双 字 边 界 上 ， 此 AC 
位 将 被 激活 。 
标识 标志 (identification flag); 若 此 ID 位 能 置 位 和 复位 ， 则 表明 这 个 处 理 器 支持 处 理 器 
ID 指令 。 这 条 指令 能 提供 处 理 器 的 有 关 厂 商 、 系 列 、 型 号 等 信息 。 








= 示 识 me a 
ViP- #6 ee AU DF = 方向 标志 
VIF = He Wi TE = Pn so 
Wt E KOS SF = 符号 标志 

VM= 虚拟 8086 模 式 ZF = 零 标志 

RF = 重新 开始 标志 a 

NT = BREE pik Tae 
oF- pm CF = 进位 标志 


图 12-22 Pentium II EFLAGS 寄存 器 


此 外 ,还 有 4 位 标志 位 涉及 操作 模式 。 髓 套 任务 (NT) 标志 指示 ,保护 模式 下 的 当前 任务 
髓 套 在 男 一 任务 中 。 虚 拟 模式 (VM) 位 使 程序 员 能 允许 或 禁止 虚拟 8086 模式 ， 在 这 种 模式 下 处 
理 器 作为 一 个 8086 机 器 来 运行 。 虚拟 中 断 标志 (VIF) 和 虚拟 中 断 未 决 标志 (VIP) 用 于 多 任务 
环境 。 

2. 控制 寄存 器 

x86 使 用 了 4 个 32 位 控制 寄存 器 (寄存 器 CR1 不 使 用 ) 来 控制 处 理 器 操作 的 各 个 方面 ( 参 
见 图 12-23), BRS CRO 寄存 器 之 外 ， 其 余 寄存 器 都 可 以 是 32 位 或 64 位 宽度 ， 具 体位 宽 根 据 是 
否 支 持 x86 的 64 位 体系 结构 而 定 。CR0O 寄存 器 包含 系统 控制 标志 ， 这 些 标志 通常 是 控制 处 理 器 
工作 模式 或 指示 其 工作 状态 ， 而 不 是 控制 个 别 任务 执行 的 。 标 志 :包括 | 
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保护 模式 使 能 (protection enable); 此 PE 位 允许 /禁止 保护 工作 模式 。 

监控 协 处 理 器 (monitor coprocessor) : 只 有 在 早期 的 x86 机 器 上 运行 程序 时 才 需 要 关注 此 
MP 位 。 该 位 与 数字 协 处 理 器 的 使 用 有 关 。 

模拟 (emulation); 当 处 理 器 不 具有 一 个 浮 点 单元 时 ， 此 EM 位 置 位 ， 试 图 执行 一 条 浮 点 
指令 时 将 引起 一 个 中 断 。 

任务 切换 (task switched): 此 TS 位 指出 处 理 器 具有 切换 的 任务 。 

扩展 类 型 (extension type): 不 在 Pentium 及 后 续 机 器 上 使 用 ， 在 早先 的 机 器 上 此 ET 位 用 
于 指示 对 数字 协 处 理 器 指令 的 支持 。 

数值 错误 (numeric error); 此 NE 位 允许 在 外 部 数据 总 线 上 报告 浮 点 错误 的 标准 机 制 。 

写 保护 (write protect); 当 此 WP 位 被 清除 时 ， 一 个 监管 进程 〈supervisor process) 可 向 用 
户 级 只 读 页 写 人 。 在 某 些 操作 系统 中 ， 此 特征 可 用 于 支持 进程 生成 。 

对 齐 屏 项 (alignment mask); 此 AM 位 允许 /禁止 对 齐 检查 。 

非 写 直通 (not write through); 此 NW 位 选择 数据 cache 的 操作 模式 ， 当 它 置 位 时 ， 禁 止 
数据 cache 的 写 直 通 操作 。 

高 速 缓存 禁止 〈cache disable); 此 CD 位 允许 /禁止 使 用 内 部 cache 填充 机 制 。 

分 页 (paging) : 此 PG 位 允许 /禁止 分 页 。 


OSXSAVE OSXMMEXCPT 





31 3029 28272625 2423222120 19181716 15141312 11109876 543210 


Plcin| W 
GID P 


“阴影 区 域 表 示 保 留 位 ” 






OSXSAVE =XSAVE 人 允许 位 PCD = 页 级 高 速 缓存 禁止 
SMXE = 允许 更 安全 模式 扩展 PWT = 页 级 写 直 通 
VMXE = 允许 虚拟 机 扩展 PG ”= 分 页 
OSXMMEXCPT = 支持 非 屏蔽 的 SIMD 浮 点 异常 CD ”= 高 速 缓 存 禁止 
OSFXSR = 支持 EXSAVE、FXSTOR NW = 无 写 直 通 
PCE = 性 能 计数 器 使 能 AM ”= 对 齐 屏 蔽 
PGE = 页 全 局 使 能 WP ”= 写 保 护 

MCE = 机 器 检测 使 能 NE ”= 数值 错误 
PAE = 物理 地 址 扩展 ET ”= 扩展 类 型 
PSE = 页 大 小 扩展 TS ”= 任务 切换 

DE = 调试 扩展 EM ”= 仿真 

TSD =H Ta) AVA IE MP ”= 监控 协 处 理 器 
PVI = 保护 模式 虚拟 中 断 PE ”= 保护 模式 使 能 
VME = 虚拟 8086 模 式 扩 展 


图 12-23 x86 控制 寄存 器 


当 人 允许 分 页 时 ，CR2 和 CR3 寄存 器 有 效 。CR2 寄存 器 保存 缺 页 中 断 之 前 最 后 访问 页 的 32 位 
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线性 地 址 。CR3 最 左 20 位 保存 页 目录 基地 址 的 有 效 的 高 20 位 〈 低 位 为 0 不 需 保 存 ) CR3 的 两 
位 用 于 驱动 控制 外 部 cache 操作 的 引 脚 。 页 级 高 速 缓存 禁止 (PCD) 位 允许 或 禁止 外 部 cache, 
页 级 写 直 通 (PWT) 位 控制 外 部 cache 的 写 直通 。 
CR4 中 定义 了 9 个 附加 控制 位 : 
o 虚拟 8086 模式 扩展 (virtual-8086 mode extension) : 此 VME 标志 人 允许 在 虚拟 8086 模式 中 
支持 虚拟 中 断 标志 。 
o 保护 模式 虚拟 中 断 (protected-mode virtual interrupt); 此 PVI 位 允许 在 保护 模式 中 支持 虚 
拟 中 断 标志 。 
时 间 惟 禁止 (time stamp disable); 此 TSD 位 用 于 禁止 读 时间 戳 计数 器 (RDTSC) 指令 ， 
这 用 于 调试 目的 。 
调试 扩展 (debugging extension): 此 DE 位 用 于 允许 VO 断 点 ， 这 人 允许 处 理 器 中 断 IO 的 
读 和 写 。 
页 大 小 扩展 (page size extension) : 此 PSE 位 被 置 位 时 ， 人 允许 使 用 更 大 的 页 (2MB 或 4MB 
页 ) 。 清 零 时 只 人 允许 使 用 4KB 的 页 。 
物理 地 址 扩展 (physical address extension); 此 PAE 位 用 于 控制 一 种 新 的 寻 址 模式 。 每 当 
该 模式 被 允许 时 ， 地 址 线 A35 到 A32 将 允许 被 使 用 。 
© 机 器 检查 使 能 (machine check enable); 此 MCE 位 允许 机 器 检查 中 断 。 当 读 总 线 周 期 出 现 
奇偶 校 验 错误 ， 或 当 一 个 总 线 周 期 未 能 成 功 完成 时 ， 会 出 现 此 种 中 断 。 
© 页 全 局 使 能 (page global enable); 此 PGE 位 用 于 允许 使 用 全 局 页 。 当 PGE =1 及 任务 切 
换 时 ， 所 有 的 TLB 表 项 要 被 清除 ， 但 那些 标志 为 全 局 (G 位 =1) 页 的 TLB 项 被 保留 。 
性 能 计数 器 使 能 (performance counter enable); 此 PCE 位 用 于 允许 以 任何 特权 级 执行 RD- 
PMC ( 读 性 能 计数 器 ) 指令 。 两 个 性 能 计数 器 用 于 测量 指定 类 型 事件 的 持续 时 间 和 出 现 
次 数 。 
3. MMX 寄存 器 
回顾 10.3 节 ， 我 们 知道 x86 的 MMX 功能 利用 了 符号 标 
几 种 64 位 数据 类 型 。MMX 指令 使 用 3 位 寄存 器 地 址 
字段 ， 故 可 以 支持 8 个 MMX 寄存 器 的 使 用 。 实 际 上 ， 
处 理 器 并 未 专门 设置 专用 的 MMX 寄存 器 ， 而 是 使 用 
了 一 种 别名 技术 (aliasing technique), ， 如 图 12-24 所 
示 ， 利 用 现 有 的 浮 点 寄存 器 来 保存 MMX 值 。 更 准确 
地 说 ， 各 浮 点 寄存 器 的 低 64 位 (尾数 ) 用 来 构成 8 
个 MMX 寄存 器 。 于 是 ， 现 有 的 32 位 x86 体系 结构 很 
容易 扩展 成 支持 MMX 功能 。MMX 使 用 这 些 寄存 器 的 
关键 特征 如 下 所 示 。 
。 回想 一 下 ， 浮 点 寄存 器 在 浮 点 运算 中 是 作为 栈 
来 对 待 的 。 但 对 于 MMX 操作 ， 同 样 这 些 寄 存 Ee se 
器 却 是 直接 可 寻 址 的 。 a 
。 在 任何 浮 点 运算 之 后 最 初 执行 MMX 指令 时 ， 图 12-24 MMX 寄存 器 映射 到 浮 点 寄存 器 
FP 的 标记 (tag) 字段 是 有 效 的 。 这 反映 了 由 
栈 操作 到 直接 寄存 器 寻 址 的 改变 。 
。 EMMS (清除 MMX 状态 ) 指令 设置 FP 标记 字段 的 各 位 ， 令 其 指示 所 有 寄存 器 都 是 空 的 。 
程序 员 在 一 个 MMX 代码 块 结束 时 插入 这 条 指令 是 至 关 重 要 的 ， 这 样 才能 使 后 面 的 浮 点 运 
算 正 常 运 行 。 


RATER 
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。 当 一 个 值 写 人 MMX 寄存 器 时 ，FP 寄存 器 的 [79: 64] 位 (符号 和 阶 值 位 ) 被 置 为 全 1。 
这 种 设置 使 得 以 浮 点 数 来 看 待 这 些 寄 存 器 时 ， 这 些 FP 寄存 器 的 值 是 无 穷 大 或 NaN ( 非 
数 ) 。 这 保证 了 任何 MMX 数据 值 都 不 会 被 误 认 为 是 有 效 的 浮 点 值 。 


12.5.2 中断 处 理 


处 理 器 中 的 中 断 处 理 是 为 支持 操作 系统 提供 的 一 种 便利 。 它 允许 一 个 应 用 程序 被 挂 起 ， 以 
使 各 种 中 断 事件 能 及 时 得 到 处 理 ， 然 后 再 恢复 应 用 程序 的 运行 。 
1. 中 断 和 异常 
有 两 类 事件 能 引起 x86 挂 起 当前 指令 流 的 执行 并 响应 事件 : PT (interrupt) 和 异常 (ex- 
ception) 。 在 这 两 种 情况 下 处 理 器 都 要 保存 当前 进程 的 上 下 文 ， 并 将 转 至 一 个 预先 定义 的 子 程序 
来 执行 特殊 的 服务 。 中 断 通 常 是 由 硬件 信号 产生 的 ， 并 出 现在 程序 执行 期 间 内 的 任何 时 刻 。 异 常 
是 由 软件 产生 的 ， 由 执行 指令 所 引发 。 有 两 类 中 断 源 和 两 类 异常 源 。 
(1) 中 断 
e 可 屏蔽 中 断 (maskable interrupt); 由 处 理 器 的 INTR 引 脚 接收 此 信号 。 除 非 中 断 允许 标志 
(IF) 被 置 位 ， 否则 处 理 器 不 响应 可 屏蔽 中 断 。 
© 不 可 屏蔽 中 断 (nonmaskable interrupt): 由 处 理 器 的 NMI 引 脚 接收 其 信号 。 这 类 中 断 的 响 
应 不 能 被 阻止 。 
(2) 异常 
。 处 理 器 检测 的 异常 (processor-detected exceptions); 当 试 图 执行 一 条 指令 而 处 理 器 遇 到 一 
个 错误 时 此 异常 发 生 。 
e 程序 异常 (programmed exceptions); 有 一 些 指令 (INTO, INT3, INT 和 BOUND) 能 产生 
异常 。 
2. 中 断 向 量 表 
x86 的 中 断 处 理 使 用 了 中 断 向 量 表 (interrupt vector table) 。 每 一 类 中 断 都 被 指派 了 一 个 中 断 
号 ， 此 号 用 于 对 中 断 向 量 表 的 索引 。 该 表 包 含有 256 个 32 位 中 断 向 量 ， 它 们 存储 着 中 断 服务 程 
序 的 地 址 〈 段 地 址 和 偏 移 量 ) 。 
K 12-3 表示 了 中 断 向 量 号 的 指派 情况 ， 有 阴影 的 项 表示 是 中 断 ， 无 阴影 的 项 是 异常 。NMI 
硬件 中 断 是 类 型 2。INTR 硬件 中 断 号 的 范围 在 32-255。 当 一 个 INTR 中 断 产 生 时 ， 在 总 线 上 需要 
同时 传送 对 应 于 此 中 断 的 中 断 向 量 号 。 其 余 的 中 断 向 量 号 用 于 异常 。 


表 12-3 x86 的 异常 和 中 断 向 量 表 












除法 错 ; 除法 上 洲 或 被 零 除 
;包括 与 





断 点 ; 由 INT3 指令 引起 的 ， 它 是 一 条 用 于 调试 的 1 字 节 指令 _ 
INTO 检测 到 的 上 滋 ， 处 理 器 执行 NTO 的 同时 车 OF 标志 置 位 将 发 生 


BOUND 范围 超出 ，BOUND 指令 比较 一 个 寄存 器 的 值 与 保存 于 存储 器 的 边界 值 ， 若 寄存 器 的 值 不 在 
边界 指定 的 范围 内 则 产生 一 个 异常 


未 定义 的 操作 码 

设备 不 可 用 ; 由 于 外 部 设备 不 存在 ， 试 图 使 用 ESC 或 WAIT 指令 而 失败 
双重 故障 ; 在 同一 指令 期 间 出 现 两 个 中 断 而 且 不 能 串 行 处 理 

保留 
无 效 任务 状态 段 ; 描述 一 个 请 求 任务 的 段 地 址 未 被 初始 化 或 是 无 效 
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( 续 ) 
向 量 号 说 明 
11 段 不 存在 ; 要 求 的 段 不 存在 
12 REE, Hah T PREROON RIL EERIE 
13 | 常规 保护 ; 不 引起 其 他 异常 的 保护 违约 〔 如 向 只 读 段 的 写 ) 
14 缺 页 
15 — 
16 浮 点 错 ; 由 浮 点 算术 指令 产生 
17 对 齐 检查 ， 以 一 个 奇数 字 节 地 址 存 取 一 个 字 或 以 一 个 非 4 倍 字 节 地 址 存 取 一 个 双 字 
18 机 器 检查 ， 型 号 说 明 











若 不 止 一 个 异常 或 中 断 是 悬而未决 的 ， 则 处 理 器 以 一 个 预先 指定 的 顺序 为 它们 服务 。 向 量 
号 在 表 中 的 位 置 不 反映 它们 的 优先 级 ， 异 常 和 中 断 的 优先 级 分 为 5 类 。 以 优先 级 降序 排列 的 这 5 
类 优先 级 是 : 

。 类 1: 先前 指令 上 的 中 断 (向 量 号 1); 

e 类 2: 外 部 中 断 (2，32 ~255 ) ; 

e 类 3: 取 下 一 指令 的 故障 (3, 14): 

© 类 4: 下 一 指令 的 译 码 故障 (6, 7): 

。 类 5: 执行 指令 的 故障 (0, 4, 5, 8, 10~14, 16, 17). 

3. 处 理 中 断 

正如 使 用 CALL 指令 的 转移 执行 流程 一 样 ， 一 个 到 中 断 处 理子 程序 的 控制 转移 也 使 用 系统 栈 
保存 处 理 器 的 状态 。 当 一 个 中 断 出 现 并 被 处 理 器 响应 时 ， 如 下 事件 序列 发 生 : 

(1) 者 转移 涉及 特权 级 改变 ， 则 当前 栈 段 寄存 器 和 当前 扩展 的 栈 指 针 (ES) 寄存 器 的 内 容 
被 压 人 栈 。 

(2) EFLAGS 寄存 器 的 当前 值 被 压 和 人 栈 。 

(3) 中 断 (IF) AMAK (TF) 两 个 标志 被 清除 。 这 就 禁止 了 INTR 中 断 、 自 陷 或 单 步 中 断 。 

(4) 当前 代码 段 (CS) 寄存 器 和 当前 指令 指针 (IP BK EP) 寄存 器 的 内 容 被 压 人 栈 。 

(5) 若 中 断 伴 随 有 错误 代码 ， 则 错误 代码 也 要 压 人 栈 。 

(6) 读 取 中 断 向 量 表 对 应 项 的 内 容 ， 将 其 装 入 CS 和 IP (或 EIP) 寄存 器 。 控 制 转移 到 中 断 
服务 子 程序 继续 执行 。 

为 从 中 断 返 回 ， 中 断 服 务 子 程序 执行 一 条 IRET 指令 。 这 使 得 所 有 保存 在 栈 上 的 值 被 取 回 ， 
并 由 中 断 点 恢复 执行 。 


12.6 ARM 处 理 器 


本 节 我 们 考察 ARM 处 理 器 的 组 成 和 体系 结构 中 一 些 关键 的 要 素 。 我 们 把 其 中 较 复 杂 的 内 容 
以 及 流水 线 组 织 安排 到 第 14 章 进行 讨论 。 对 于 本 节 和 第 14 章 的 讨论 ， 记 住 ARM 体系 结构 的 关 
键 特征 是 有 好 处 的 。ARM 处 理 器 是 一 个 RISC 处 理 器 ， 并 有 如 下 值得 注意 的 特征 : 
。 中 等 规模 、 结 构 规整 的 寄存 器 组 。 寄 存 器 数量 比 一 些 CISC 机 器 多 , 但 少 于 多 数 的 RISC 
机 器 。 
© 数据 处 理 遵 循 装载 /保存 模式 。 其 中 各 种 运算 只 对 寄存 器 中 的 操作 数 进行 操作 ， 而 不 直接 
访问 内 存 。 运 算 前 ， 所 需要 的 所 有 数据 要 先 从 内 存 装载 到 寄存 器 。 运 算 结 果 可 以 继续 被 
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后 继 运 算 使 用 ， 或 保存 回 存储 器 。 

。 定 长 的 、 格 式 统一 的 32 位 标准 指令 集 ， 以 及 一 个 16 位 的 压缩 指令 集 。 

。 为 使 每 条 数据 处 理 指令 更 为 灵活 ， 可 以 对 一 个 源 操作 数 进行 移 位 或 循环 移 位 的 预 处 理 。 
为 有 效 支持 这 一 功能 ， 设 计 了 单独 的 算术 逻辑 单元 和 移 位 单元 。 

。 只 提供 了 少数 几 种 寻 址 模式 ， 应 用 于 所 有 装载 /保存 地 址 的 确定 。 这 些 地 址 由 指令 中 立即 
数 或 指定 的 寄存 器 操作 数 来 计算 得 到 。 间 接 寻 址 ， 以 及 变 址 寻 址 因 要 用 到 内 存 中 的 值 ， 
故 未 被 使 用 。 

。 使 用 了 自动 递增 和 自动 递减 寻 址 模式 ， 以 便 提 高 程序 中 循环 的 操作 性 能 。 

。 所 有 指令 的 执行 都 可 带 条 件 ， 这 降低 了 条 件 分 支 指令 的 使 用 ， 从 而 减少 了 流水 线 清空， 
提高 了 流水 线 的 效率 。 


12.6.1 ”处理 器 组 成 
ARM 处 理 右 的 组 织 随 着 实现 的 不 同 相 互 之 间 差 别 较 大 ， 尤 其 当 ARM 处 理 器 的 实现 是 基于 不 
同 版 本 的 ARM 体系 结构 的 时 候 。 不 过 ， 对 于 本 节 的 讨论 ， 一 个 简单 的 一 般 化 的 ARM 组 织 结构 还 


是 有 用 的 ， 该 组 织 结构 如 图 12-25 所 示 。 图 中 ， 带 箭头 的 线 表示 数据 流 。 每 个 方 框 表示 一 个 硬件 
功能 单元 或 一 个 存储 单元 。 





| 片 外 存储 器 (高 速 缓存， 主 存 ) | 











存储 器 地 址 寄存 器 存储 器 缓冲 寄存 器 
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K 12-25 简化 的 ARM 处 理 器 组 织 


数据 经 由 数据 总 线 在 处 理 器 外 的 存储 器 和 处 理 器 之 间 传 递 。 所 传递 的 数据 元 素 或 者 是 装载 / 
保存 指令 操作 的 数据 项 ， 或 者 是 取 指 的 指令 。 读 取 到 的 指令 在 控制 单元 的 控制 下 ， 经 过 指令 译 码 
器 ， 然 后 执行 。 控 制 单 元 包括 流水 线 逻 辑 电路 ， 并 产生 控制 信号 〈 图 中 未 显示 ) ， 送 到 处 理 器 各 
个 硬件 单元 。 读 取 到 的 数据 项 放 人 由 一 组 32 位 寄存 器 组 成 的 寄存 器 组 。 以 2 的 补 码 表示 的 字 节 
或 半 字 数据 项 会 通过 符号 扩展 到 32 位 。 
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ARM 的 数据 处 理 指令 通常 有 两 个 源 寄存 器 (Rn 和 Rm), 一 个 目的 或 结果 寄存 器 ( Rd)。 源 
寄存 器 值 被 送 到 算术 逻辑 单元 ， 或 单独 的 乘法 单元 进行 计算 。 乘 法 单元 中 有 额外 的 寄存 器 ， 以 便 
累加 部 分 积 。ARM 处 理 器 还 包含 了 一 个 单独 的 硬件 单元 ， 该 单元 可 用 于 对 源 寄 存 器 Rm 的 值 在 
送 到 算术 逻辑 单元 之 前 ， 做 移 位 或 循环 移 位 操作 。 移 位 和 循环 移 位 操作 可 以 在 指令 周期 中 完成 ， 
这 样 能 提高 数据 处 理 的 能 力 和 灵活 性 。 

操作 的 结果 会 送 回 到 目的 寄存 器 中 。 装 载 /保存 指令 可 能 也 会 使 用 算术 单元 的 结果 来 生成 要 
装载 或 保存 的 存储 器 地 址 。 


12.6.2 ”处 理 器 模式 


处 理 器 只 支持 几 种 处 理 器 模式 是 很 常见 的 。 例 如 ， 很 多 操作 系统 只 使 用 两 种 模式 : 用 户 模 式 
(user mode) 和 内 核 模 式 (kerel mode) 。 其 中 内 核 模 式 用 来 执行 特权 系统 程序 。ARM 体系 结构 
与 上 述 方式 不 同 ， 它 提供 了 一 个 灵活 的 平台 ， 以 便 操 作 系统 实施 不 同 的 保护 策略 。 
ARM 处 理 器 提供 了 7 种 运行 模式 。 大 多 数 应 用 程序 在 用 户 模式 下 运行 。 当 处 理 器 处 于 用 户 
模式 时 ， 运 行 的 程序 不 能 访问 受 保护 的 系统 资源 ， 也 不 能 改变 模式 ， 除 非 发 生 了 异常 。 
其 他 6 种 运行 模式 称 为 特权 模式 ， 这 些 模式 用 于 运行 系统 软件 。 定 义 这 么 多 不 同 的 特权 模式 
有 两 个 主要 的 好 处 : (1) 操作 系统 可 以 对 系统 软件 进行 定制 ， 以 适应 不 同 的 情况 ; (2) 特定 的 
寄存 器 将 用 于 特定 的 特权 模式 ， 使 得 上 下 文 的 切换 更 为 便利 。 
异常 模式 可 以 访问 所 有 的 系统 资源 ， 并 随意 更 改 运 行 模式 。 特 权 模 式 中 有 5 种 是 异常 模式 。 
当 特 定 的 异常 发 生 时 ， 就 会 进入 到 对 应 的 异常 模式 。 每 种 异常 模式 有 一 些 专用 的 寄存 器 ， 它 们 取 
代 了 一 些 用 户 模式 下 的 寄存 器 ， 这 样 做 的 目的 是 为 了 避免 破坏 在 异常 发 生 时 的 用 户 模 式 状 态 信 
息 。 异 常 模式 如 下 所 示 : 
。 监管 模式 (supervisor mode): 这 通常 是 操作 系统 运行 的 模式 。 当 处 理 器 碰 到 一 条 软件 中 
断 指 令 时 ， 将 进入 这 种 模式 。 软 件 中 断 是 ARM 中 一 个 调用 操作 系统 服务 的 标准 办 法 。 

e 取消 模式 (abort mode): 当 出 现 内 存 错误 时 ， 将 进入 到 这 种 模式 。 

© 未 定义 模式 (undefined mode) : 当 处 理 器 试图 执行 一 条 既 不 被 整数 主 处 理 核 也 不 被 协 处 
理 器 支持 的 指令 时 ， 就 进入 到 这 种 模式 。 

o 快速 中 断 模式 (fast interrupt mode): 当 处 理 器 从 指定 的 快速 中 断 源 接 收 到 一 个 中 断 信和 号 
时 ， 就 进入 到 这 种 模式 。 快 速 中 断 服 务 程序 是 不 能 被 中 断 的 ， 但 快速 中 断 可 以 中 断 一 个 
普通 的 中 断 服务 程序 。 

e 中 断 模式 (interrupt mode); 当 处 理 器 从 任何 其 他 中 断 源 (快速 中 断 除 外 ) 接收 到 一 个 中 

断 信号 时 ， 就 进入 到 这 种 模式 。 只 有 快速 中 断 可 以 中 断 一 个 中 断 服务 程序 。 

最 后 一 种 特权 模式 是 系统 模式 ， 任 何 异 常 都 不 会 进入 这 种 模式 ， 它 与 用 户 模式 使 用 相同 的 

寄存 器 。 系 统 模式 用 于 运行 特定 的 特权 操作 系统 任务 ， 这 些 任务 可 以 被 上 述 5 种 异常 模式 中 断 。 


12.63 寄存 器 组 成 


图 12-26 显示 了 ARM 处 理 器 对 用 户 可 见 的 寄存 器 。ARM 处 理 器 总 计 有 37 个 32 位 的 处 理 器 ， 
分 类 如 下 : 

。 ARM 处 理 需 用 户 手册 中 介绍 有 31 个 通用 寄存 器 。 实 际 上 ， 其 中 一 些 寄 存 器 是 有 专门 用 途 

的 ， 例 如 程序 计数 器 。 

© 6 个 程序 状态 寄存 器 。 

寄存 侨 分 成 若干 组 ， 组 与 组 之 间 有 部 分 重 苹 。 当 前 运行 模式 决定 哪个 组 的 寄存 器 是 可 见 的 。 
在 任何 时 候 ， 有 16 个 寄存 器 ，1 到 2 个 程序 状态 寄存 器 是 始终 可 见 的 ， 这 样 总 计 有 17 ~ 18 个 软 
件 可 见 的 寄存 器 。 下 面 给 出 图 12-26 的 说 明 。 
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注 : 图 中 阴影 表示 用 户 或 系统 模式 下 使 用 的 普通 寄 
这 器 被 蔡 换 为 异常 模式 下 的 专用 寄存 器 。 
SP = 栈 指 CPSR = 当前 程序 状态 寄存 器 
LR = 连接 寄存 器 SPSR = 已 保存 的 程序 状态 寄存 器 
PC = 程序 计数 器 









图 12-26 ARM 寄存 器 组 织 


。 寄存 器 RO 到 R7， 寄 存 器 RIS (程序 计数 器 ) ， 以 及 当前 程序 状态 寄存 器 (CPSR), ， 对 所 
有 模式 可 见 ， 并 被 所 有 模式 共享 。 
o 寄存 器 R8 到 R12 由 除了 快速 中 断 模 式 以 外 的 模式 共享 。 快 速 中 断 模式 有 它 自 己 专 用 的 寄 
存 器 R8_fiq 和 R12_fiq。 
。 所 有 的 异常 模式 都 有 它们 自己 版 本 的 寄存 器 R13 和 R14。 
。 所 有 的 异常 模式 都 有 它们 自己 专用 的 已 存 程序 状态 寄存 器 (SPSR ) 。 
(1) 通用 寄存 器 : 寄存 器 R13 通常 被 用 作 栈 指针 ， 因 此 常常 称 为 SP。 因 为 每 个 异常 模式 下 
有 自己 单独 的 R13 ， 因 此 每 个 异常 模式 都 有 自己 专用 的 程序 栈 。R14 被 用 作 连 接 寄存 器 ， 用 于 保 
存 子 过 程 的 返回 地 址 以 及 异常 模式 退出 时 返回 的 结果 。 寄 存 器 R15 是 程序 计数 器 (PC ) 。 
(2) 程序 状态 寄存 器 : CPSR 对 于 所 有 处 理 器 模式 都 可 访问 。 每 个 异常 模式 也 有 自己 专用 的 
SPSR 寄存 器 。 该 寄存 器 用 于 保存 异常 发 生 时 CPSR 的 值 。 
CPSR 的 高 16 位 包含 了 用 户 模式 下 可 见 的 那些 标志 。 这 些 标志 可 以 影响 程序 的 操作 ( 见 图 
12-27) 。 下 面 列 出 了 这 些 标 志 的 说 明 : 
。 条 件 码 标志 : 第 10 章 介 绍 过 的 N, Z, C 和 V 标志 。 
。 Q 标 志 : 用 于 指示 在 一 些 面向 SMD 的 指令 中 是 否 发 生 了 溢出 和 /或 饱和 (saturation) 。 
。 J 位: 表示 现在 在 使 用 特殊 的 8 位 指令 ， 即 所 谓 的 Java 加 速 指令 (Jazelle) ， 这 种 指令 的 
讨论 不 在 本 书 范围 内 。 
e GE [3:0] 位 : SIMD 指令 使 用 bits [19:16] 作为 运算 结果 各 个 字 节 或 半 字 的 大 于 或 等 于 
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(GE) 标志 。 

CPSR 的 低 16 位 包含 了 系统 控制 慰 志 ， 它 们 只 能 在 处 理 器 处 于 特权 模式 时 被 修改 。 这 些 标志 

如 下 所 示 : 

e Ett: 控制 数据 装载 和 保存 的 端 序 ， 对 于 指令 读 取 ， 该 位 被 忽略 。 

e 中 断 禁止 位 : A 位 置 位 时 ， 非 精确 地 数据 取消 异常 是 被 禁止 的 。I 位 置 位 时 ，IRQ 中 断 被 
禁止 。F 位 置 位 时 ，FIQ 中 断 被 禁止 。 

。 Ti: 指示 指令 是 否 应 该 被 当 作 普通 的 ARM 指令 ， 还 是 被 当 作 压缩 指令 。 

o 模式 位 : 指示 当前 处 理 器 的 运行 模式 。 


31302928272625242322 212019181716151413 1211109 87654321 0 
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图 12-27 ARM 处 理 器 CPSR 和 SPSR 寄存 器 的 格式 
12.6.4 中断 处 理 


与 其 他 处 理 器 类 似 ，ARM 也 提供 了 中 断 机 制 ， 允 许 处 理 器 中 断 当 前 正在 执行 的 程序 ， 转 而 
处 理 异 常情 况 。 异 常 由 内 部 或 外 部 的 中 断 源 产生 ， 使 得 处 理 器 应 对 某 个 事件 。 在 处 理 异 常 前 ， 处 
理 器 的 状态 通常 要 被 保存 ， 这 样 当 异 常 处 理 完 后 ， 可 以 恢复 执行 被 中 断 的 程序 。 同 一 时 间 可 以 发 
生 多 于 一 个 的 异常 。ARM 处 理 器 支持 7 种 类 型 的 异常 ， 表 12-4 列 出 了 这 些 异常 类 型 ， 以 及 每 种 
异常 对 应 的 处 理 器 运行 模式 。 当 一 个 异常 发 生 时 ， 处 理 器 的 运行 被 强制 转向 到 对 应 于 该 异常 类 
型 的 某 个 内 存 固 定 地 址 处 开始 执行 。 这 些 固定 的 内 存 地 址 被 称 为 异常 向 量 。 
表 12-4 ARM 中 断 向 量 


















说 H 





重启 (Reset) 当 系 统 被 初始 化 时 发 生 


当 访 问 一 个 无 效 内 存 地 址 时 发 生 ， 例 如 一 个 地 址 没有 对 应 的 物 











数据 取消 取消 0x00000010 | 理 地 址 ， 或 缺乏 正确 的 访问 许可 

当 一 个 外 部 设备 置 位 了 处 理 器 快速 中 断 引 脚 时 发 生 。 一 个 中 断 
Pn 处 理 程序 一 般 不 能 被 中 断 ， 除 非 该 中 断 是 一 个 快速 中 断 。 提 供 快 
i 快速 中 断 | 0x0000001C | 速 中 断 是 为 了 支持 数据 传送 或 通道 处 理 。 快 速 中 断 模式 提供 了 足 


够 的 私有 寄存 器 ， 这 样 就 不 用 考虑 节省 寄存 器 的 使 用 ， 从 而 能 使 
上 下 文 切 换 的 开销 降 至 最 低 。 快 速 中 断 服务 程序 是 不 能 被 中 断 的 
当 一 个 外 部 设备 置 位 了 处 理 器 中 断 引 脚 时 发 生 。 中 断 服务 程序 
不 能 被 中 断 ， 除 了 快速 中 断 以 外 

当 试 图 读 取 一 条 指令 ， 却 导致 内 存 错误 时 发 生 。 该 异常 在 指令 
进入 流水 线 的 执行 阶段 时 被 抛 出 

当 一 条 不 属于 指令 集 的 指令 进入 流水 线 的 执行 阶段 时 发 生 

通常 用 于 允许 用 户 模式 的 程序 调用 操作 系统 服务 。 在 这 种 情况 
监管 0x00000008 下 ， 用 户 程序 执行 一 条 SWI 指令 ， 并 带 上 相应 参数 ， 指 出 想 要 调 
用 的 系统 服务 








中 断 (FIQ) 








软件 中 断 





如 果 有 多 个 中 断 等 待 处 理 ， 那 么 它们 将 按照 优先 级 依次 处 理 。 表 12-4 就 是 按照 异常 的 优先 
级 次 序 从 高 到 低 排列 的 。 

当 异 常 发 生 时 ， 处 理 器 在 执行 完 当 前 指令 后 ， 中 止 正在 运行 的 程序 。 处 理 器 的 状态 被 保存 到 
对 应 该 异常 的 SPSR 寄存 器 中 。 这 样 当 异常 处 理 程序 执行 完 后 ， 可 以 恢复 原来 程序 的 运行 。 处 理 
器 在 异常 发 生 时 本 来 要 执行 的 原 程序 的 指令 被 保存 在 与 该 异常 模式 对 应 的 连接 寄存 器 (R14) 
中 。 蜡 常 处 理 完 后 ，SPSR 寄存 器 的 内 容 将 移 到 CPSR 中 ， 而 R14 的 内 容 移 到 程序 计数 器 中 ， 从 
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而 返回 原 程序 继续 运行 。 


12.7 ”推荐 的 读物 


[PATTOL] 和 [MOSH01] 对 本 章 所 讨论 的 流水 线 问题 提供 了 很 好 的 概述 。 [ HENN91] 包含 了 流水 线 
的 详细 讨论 。[ SOHI90] 提供 了 一 个 有 关 指 令 流水 线 硬件 设计 出 发 点 的 详细 并 优秀 的 讨论 。 

[EVERO1] 考察 了 分 支 预测 策略 的 进展 。 [CRAC92] 是 一 个 指令 流水 线 中 分 支 预测 的 详尽 研究 。 
[DUBE91] 和 [LILJ88] 考察 了 能 用 于 提高 指令 流水 线性 能 的 各 种 分 支 预测 策略 。[ KAEL91] 考察 了 由 于 
转移 目标 地 址 是 变量 ， 给 分 支 预测 带 来 的 困难 。 

[BREY09] 提供 了 x86 上 中 断 处 理 的 很 好 介绍 。[ FOC08b] 提供 了 x86 系列 流水 线 结构 的 详细 讨论 。 





128 关键 词 、 思 考题 和 习题 


关键 词 

branch prediction: 分 支 预 测 instruction cycle: 指令 周期 
condition code; 条 件 码 instruction pipeline: 指令 流水 线 
delayed branch; 延迟 分 支 instruction prefetch: 指令 预 取 
flag: 标志 program status word: 程序 状态 字 
思考 题 


12.1 CPU 寄存 器 通常 起 什么 作用 ? 

12.2 ”用 户 可 见 寄存 器 普遍 支持 的 数据 类 型 是 什么 ? 

12.3 条件 码 的 功能 是 什么 ? 

12.4 ”什么 是 程序 状态 字 ? 

12.5 与 不 使 用 流水 线 相 比 ， 为 什么 一 个 两 阶段 流水 线 不 可 能 将 指令 周期 时 间 缩 短 到 原来 的 一 半 ? 
12.6 列 出 并 简要 说 明 指 令 流 水 线 处 理 条 件 分 支 指 令 的 几 种 方式 。 

12.7 ”分 支 预 测 中 如 何 使 用 历史 位 ? 
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习题 

12.1 (a) 若 在 一 个 8 位 字 的 计算 机 上 完成 的 最 后 操作 是 两 个 操作 数 2 和 3 的 加 法 ， 如 下 标志 应 该 有 何 值 ? 
。 进位 。 符号 °F 
。 偶 校 验 o Hii 。 半 进 位 


(b) 若 两 个 操作 数 是 -1 (2 的 补 码 ) 和 +1， 又 应 该 为 何 值 ? 
12.2 # A 4411110000, B 44 0010100, 请 对 A -B 操作 重复 习题 12.1 问题 。 
12.3 ” 某 微 处 理 器 的 时 钟 频率 是 5GHz: 

(a) 时 钟 周期 是 多 长 ? 

(b) 由 3 个 时 钟 周期 组 成 的 某 特 定 类 型 的 机 器 指令 周期 有 多 长 时 间 ? 

12.4” 某 微 处 理 器 提供 了 能 将 字 节 串 由 内 存 一 区 域 传送 到 另 一 区 域 的 指令 。 取 指令 和 最 初 译 码 用 了 10 个 时 
钟 周 期 ， 此 后 每 传送 一 字 节 用 15 个 时 钟 周 期 。 微 处 理 器 的 时 钟 频率 是 5GHz。 

(a) 请 对 64 字 节 的 串 ， 确 定 指令 周期 长 度 。 
(b) 若 此 指令 是 不 可 中 断 的 ， 那 么 最 坏 情 况 下 中 断 响应 的 最 大 延迟 是 多 少 ? 
(c) 若 此 指令 在 每 字 节 传 送 开 始 前 能 被 中 断 ， 重 复 (b) 问 。 

12.5 Intel 8088 由 总 线 接口 单元 BIU 和 执行 单元 EU 两 部 分 组 成 ， 它 们 构成 一 个 两 段 流水 线 。BIU 负责 取 指 
令 ， 放 和 人 一 个 4 字 节 指令 队列 ， 并 依 EU 请 求 参与 地 址 计算 、 由 内 存 取 操 作 数 和 写 回 结果 。 若 没有 待 
处 理 的 这 类 请 求 ， 并 且 总 线 空 闵 ， 则 BIU 填充 指令 队列 的 空位 置 。 当 EU 完成 一 条 指令 的 执行 ， 它 将 
结果 传送 给 BIU (最 终 到 存储 器 或 IO) ， 然 后 再 处 理 一 下 指令 。 

(a) 假定 BIU 和 EU 完成 各 自 的 任务 用 相等 的 时 间 ， 流 水 线 能 提高 8088 性 能 多 少 倍 ? 不 考虑 分 支 指 
令 的 影响 。 
(b) 假定 EU 用 时 是 BIU 的 两 倍 长 ， 重 复 上 问 。 
12.6 ”假定 8088 正在 执行 的 程序 中 跳 转 指令 出 现 的 概率 是 0.1。 为 简化 ， 认 为 所 有 指令 都 是 2 字 节 长 。 
(a) 多 大 比率 的 指令 读 取 总 线 周 期 被 浪费 了 ? 
(b) 若 指 令 队列 是 8 字 节 长 ， 重 复 上 问 。 

12.7 考虑 图 12-10 的 时 序 图 。 假 定 只 是 一 个 两 阶段 流水 线 ( 取 指 ， 执 行 )。 重 画 此 图 ， 显 示 如 果 有 4 条 指 
令 的 话 ， 现 在 需要 多 少时 间 单 位 。 

12.8 ”假定 一 流水 有 4 段 : 取 指 (FI) 、 译 码 指 令 和 地 址 计算 (DA) 、 取 操作 数 (FO) 和 执行 (EX) 。 请 为 
7 条 指令 序列 画 出 类 似 于 图 12-10 的 图 ， 并 假定 此 指令 序列 中 的 第 3 条 指令 是 一 条 分 支 指令 。 另 外 ， 
此 序列 不 存在 数据 相关 性 。 

12.9 某 时 钟 速率 为 2.5GHz 的 流水 式 处 理 器 执行 一 个 有 150 万 条 指令 的 程序 。 流 水 线 有 5 段 并 以 每 时 钟 周 
期 1 条 的 速率 发 射 指令 。 不 考虑 分 支 指令 和 乱 序 (out-of-sequence) 执行 所 带 来 的 性 能 损失 。 

(a) 同样 执行 这 个 程序 ， 该 处 理 器 比 非 流 水 式 处 理 器 加 速 了 多 少 ? 此 处 采用 与 12. 4 节 相 同 的 假设 。 
(b) 此 流水 式 处 理 器 的 吞吐 率 是 多 少 (以 MIPS 为 单位 )? 

12.10 某 时 钟 频率 为 2. SCHz 的 非 流水 式 处 理 器 ， 其 平均 CPI (每 指令 周期 数 ) 是 4。 此 处 理 器 的 升级 版 本 
引入 了 5 段 流水 。 然 而 ， 由 于 如 锁 存 延迟 这 样 的 流水 线 内 部 延迟 ， 使 新 版 处 理 器 的 时 钟 频率 必须 降 
低 到 2GHz。 

(a) 对 典型 程序 ， 新 版 处 理 器 所 实现 的 加 速 比 是 多 少 ? 
(b) 新 、 旧 两 版 处 理 器 的 MIPS 速率 是 多 少 ? 

12.11 考虑 通过 指令 流水 线 来 执行 的 一 个 长 度 为 n 的 指令 序列 。 假 设 遇 到 一 条 有 条 件 的 或 无 条 件 的 分 支 指 
令 的 概念 为 p， 并 假设 执行 分 支 指令 I， 而 转移 到 非 后 继 连续 地 址 的 概率 是 g。 请 利用 这 些 概 率 重 写 
等 式 (12.1) 和 等 式 (12.2)。 为 使 问题 简化 ， 假 设 对 于 发 生 转 移 的 分 支 指令 I， 当 它 在 流水 线 最 后 
一 段 执行 时 ， 将 清空 流水 线 并 撤销 线 上 其 他 正在 进行 的 指令 。 

12.12 ”对 于 处 理 流水 线 中 分 支 指令 的 多 个 指令 流 方法 ， 它 的 一 个 局 限 是 ， 在 最 初 分 支 指令 是 否 转移 还 没 确 
定之 前 又 遇 到 另 一 个 分 支 指令 ， 请 举 出 另外 两 个 局 限 或 缺点 。 

12.13 ”考虑 图 12-28 所 示 的 状态 图 。 

(a) 描述 每 个 状态 图 的 行为 。 
(b) 将 它们 与 12. 4 节 分 支 预 测 的 状态 图 做 比较 。 讨 论 包括 上 述 两 种 状态 图 在 内 的 三 种 分 支 预测 策略 
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12.14 


1215 
12.16 


的 相对 优 缺 点 。 
发 生 





不 发 生 
图 12-28 两 种 转移 处 理 状态 图 


Motorola 680x0 机 器 包括 有 “递减 并 根据 条 件 转移 ” (decrement and branch according to condition) 指 
令 ， 它 具有 如 下 形式 : 

DBcc Dn, displacement 

这 里 的 ce 是 一 个 可 测试 条 件 ，Dn 是 一 个 通用 寄存 器 ，displacement (WER) 则 指定 相对 于 当前 指 
令 地 址 的 目标 地 址 。 此 指令 能 定义 成 : 


if (cc =False) 


then begin 

Dn := (Dn) -1; 

if Dn -1 then PC: = (PC) + displacement end 
else PC := (PC) + 2; 


当 指 令 执行 时 ， 首 先 测试 条 件 以 确定 循环 结束 条 件 是 否 被 满足 。 若 是 ， 则 不 执行 任何 操作 ， 并 继续 
执行 顺序 的 下 一 条 指令 。 若 条 件 是 假 ， 则 指定 的 数据 寄存 器 被 减 1， 并 检查 其 值 是 否 小 于 零 。 若 是 小 
于 零 ， 则 循环 结束 ， 并 继续 执行 顺序 的 下 一 条 指令 。 和 否则 ， 程 序 转移 到 指定 的 位 置 。 


现 考虑 如 下 的 汇编 语言 程序 段 : 
AGAIN CMPM.L (A0)+, (Al) + 
DBNE D1, AGAIN 


NOP 

其 中 A0 和 Al 是 两 个 字 串 地 址 ， 代 码 对 这 两 个 串 做 比较 ， 检 查 它 们 是 否 相 等 ; 每 次 访问 了 两 个 串 中 

的 对 应 元 素 ， 串 指针 都 被 递增 。D1 最 开始 含有 待 比较 的 长 字 (4 字 节 ) 的 数量 。 

(a) 寄存 器 的 初始 值 是 : AO = $00004000, Al = $00005000, D1 = $000000FF ( $ 表示 十 六 进 
制 数 ) 。 地 址 $4000 和 $6000 之 间 的 存储 器 全 部 以 $AAAA 字 装 人 。 若 运行 上 述 程序 ， 请 指出 
DBNE 循环 执行 的 次 数 和 当 达 到 NOP 指令 时 三 个 寄存 器 的 内 容 。 

(b) 重复 (a), 但 现在 是 假定 存储 器 $4000 和 $4FEE 之 间 是 以 $0000 字 装 人 ， 而 $5000 和 $ 6000 
之 间 是 以 $ AAAA Ao 

假定 条 件 转移 未 发 生 ， 请 重 画 图 12-19c。 

摘自 [ MACD84] 的 表 12-5 对 各 类 应 用 的 转移 行为 进行 了 统计 。 除 1 类 转移 行为 外 ， 各 类 应 用 之 间 

没有 明显 不 同 。 请 确定 科学 应 用 环境 中 ， 转 向 转移 目标 地 址 的 转移 占 全 部 转移 的 比率 。 对 于 商业 应 

用 和 系统 应 用 环境 ， 重 复 上 一 问题 。 
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R125 示例 应 用 程序 中 的 转移 行为 


转移 出 现 的 类 型 : 

1 类 : 转移 指令 72.5% 
2 类: 循环 控制 9.8% 
3 类 : 过 程 调用 , Bl 17.7% 





1 类 转移 : 转向 何 处 
无 条 件 一 一 100% 转 向 目标 
条 件 一 一 转向 目标 
条 件 一 一 不 转向 目标 (顺序 ) 

2 类 转移 (所 有 环境 ) 


35% 
32.5% 
32.5% 











转向 目标 91% 
不 转向 目标 9% 
3 类 转移 

100% 转 向 目标 


12.17 ”流水 化 亦 能 施加 到 ALU 内 部 以 加 速 浮 点 运算 。 考 虑 浮 点 加 减法 的 情况 。 简 洁 地 说 ， 流 水 线 可 以 包含 


4 段 : (1) 比较 阶 值 ; (2) 选择 阶 值 并 对 齐 有 效 数 ; (3) 加 或 减 al TR 


有 效 数 ; (4) 规格 化 结果 。 假 设 流水 有 两 个 并 行 线程 并 能 像 这 样 
着 手 进行 : 一 个 处 理 阶 值 ， 一 个 处 理 有 效 数 。 
图 中 标记 R 的 方 框 指 的 是 用 于 保持 临时 结果 的 一 组 寄存 器 。 完 善 
此 框图 ， 使 其 顶层 视图 表示 出 流水 线 的 结构 。 
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本 章 要 点 

e 对 设计 新 型 处 理 器 体系 结构 来 说 ， 高 级 语言 程序 行为 的 研究 具有 指导 意义 ， 成 果 之 一 就 
是 产生 了 精简 指令 集 计 算 机 (RISC)。 程 序 中 赋值 语句 占 最 大 份额 ， 这 上 暗示 着 简单 的 数 
据 传送 应 当 优化 。 程 序 中 还 有 许多 IF 和 LOOP 语句 ， 意 味 着 基本 的 顺序 控制 机 制 需 要 进 
行 优化 ， 以 便 有 效 地 使 用 流水 技术 。 操 作 数 引用 样式 的 研究 表明 ， 在 寄存 器 中 保持 适当 
数量 的 操作 数 会 有 助 于 性 能 的 提高 。 
这 些 研究 已 导出 RISC 机 器 的 关键 特征 : 其 一 ， 有 限 的 指令 集 并 具有 固定 格式 ; 其 二 ， 大 
量 的 寄存 器 或 利用 编译 器 来 优化 寄存 器 的 使 用 ; 其 三 ， 强 调 对 指令 流水 线 的 优化 。 
RISC 的 简单 指令 集 便 于 有 效 的 流水 化 ， 因 为 每 条 指令 只 有 少数 几 种 操作 ， 并 且 这 些 操作 
是 比较 容易 确定 的 。RISC HARA AA OB OF tt A BT SE HEIR DX (delayed branch) 
技术 ， 这 种 技术 将 分 支 指令 和 其 他 指令 重 排 从 而 提高 流水 线 效率 。 

自 1950 年 研制 出 程序 存储 式 计算 机 以 来 ， 在 计算 机 组 织 和 体系 结构 领域 中 ， 只 有 少量 引 人 
瞩目 的 真正 变革 。 以 下 虽然 不 是 一 个 完整 列表 ， 但 给 出 了 自 计算 机 诞生 以 来 某 些 最 主要 的 进步 。 

© 系列 概念 (family concept); 1964 年 IBM 在 它 的 System/360 机 器 上 引入 此 概念 ， 接 着 又 有 
DEC 的 PDP-8 使 用 了 此 概念 。 系 列 这 个 概念 将 机 器 的 结构 与 它 的 具体 实现 分 离开 来 。 以 
不 同 的 价格 /性 能 特征 提供 的 一 组 计算 机 ， 对 用 户 来 说 具有 同样 结构 ， 它 们 被 称 为 一 个 系 
列 。 性 能 和 价格 方面 的 差异 在 于 同样 结构 的 不 同 实现 。 
微 程 序 式 控制 器 ( microprogrammed control unit): 它 是 Wilkes F 1951 年 首先 提出 的 ， 并 
在 1964 年 被 IBM 引入 到 它 的 S/360 生产 线 。 微 程序 设计 使 控制 器 的 设计 和 实现 变 得 更 容 
易 ， 并 提供 了 对 系列 概念 的 支持 。 l 
高 速 缓存 存储 器 (cache memory): 商品 化 使 用 首先 是 在 1968 年 的 IBM S/360 型 号 85 机 
器 上 实现 的 。 在 存储 器 层次 结构 中 插入 cache 这 个 层次 ， 极 大 地 改善 了 系统 性 能 。 
流水 (pipelining): 将 并 行 性 引入 机 器 指令 程序 顺序 本 性 的 一 种 方式 。 例 子 是 指令 流水 和 
向 量 处 理 。 

© 多 个 处 理 器 ( multipleprocessors) : 这 一 类 包含 了 几 种 不 同 组 织 和 目标 机 器 。 

。 精简 指令 集 计算 机 (reduced instruction set computer, RISC) 结构 : 这 是 本 章 的 焦点 。 

RISC 结构 是 一 个 对 CPU 传统 趋势 的 重大 叛离 。RISC 结构 分 析 将 我 们 带 人 计算 机 组 织 和 体系 
结构 热点 的 讨论 。 

BR, 已 有 不 同 的 团体 以 各 种 方式 定义 和 设计 了 RISC 系统 ， 然 而 有 些 关键 点 是 大 多 数 (不 
是 所 有 ) 设计 都 采用 的 。 它 们 是 : 

。 通过 大 量 的 通用 寄存 器 和 (R) 使 用 编译 器 技术 来 优化 寄存 器 的 使 用 。 

。 一 个 有 限 且 简单 的 指令 集 。 

。 强调 指令 流水 的 优化 。 

表 13-1 比较 了 RISC 和 非 RISC 系统 。 

本 章 以 简要 综述 指令 集 的 几 个 研究 结果 开始 ， 然 后 考察 上 述 的 三 个 主题 ， 最 后 介绍 RISC 设 
计 中 的 两 个 实例 。 
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表 13-1 —# CISC, RISC 和 超标 量 处 理 器 的 特征 
CISC RISC 超标 量 






















ew IBM370/168| VAX11/780 |Intel 80486| SPARC |MIPS R4000| PowerPC | Ultra SEADE MS R10000 
开发 年 份 1973 1978 1991 1993 1996 1996 
指令 数量 208 303 94 225 
指令 长 度 ( 字 节 ) 2~6 2 ~57 4 4 4 4 
寻 址 方式 4 22 1 2 1 1 
通用 寄存 器 数 16 16 40 ~520 32 
控制 存储 器 大 小 (Kb) 一 一 - 
cache 大 小 (KB) 











13.1 指令 执行 特征 

计算 机 发 展 的 最 易 见 形式 是 编程 语言 。 随 着 硬件 成 本 的 下 降 ， 软 件 的 成 本 相对 上 升 。 另 一 方 
面 ， 编 程 人 员 的 长 期 缺乏 也 驱使 软件 成 本 在 绝对 意义 上 上 升 。 因 此 ， 一 个 系统 生存 期 的 主要 成 本 
是 软件 而 不 是 硬件 。 除 成 本 和 不 便利 之 外 ， 还 有 不 可 靠 因素 : 不 论 是 系统 程序 还 是 应 用 程序 ， 运 
行 多 年 之 后 虽 经 不 断 修正 仍 继续 出 现 新 的 故障 。 

研究 人 员 和 业界 对 此 的 响应 是 ， 开 发 出 了 功能 更 强 、 更 复杂 的 高 级 程序 设计 语言 。 这 些 高 级 
语言 (High-Level Language, HLL) 允许 编程 人 员 能 更 简明 地 表示 算法 ， 更 关注 细节 ， 并 通常 支 
持 结构 化 程序 设计 或 面向 对 象 的 程序 设计 。 

然而 ， 这 种 解决 方法 又 提出 了 一 个 称 为 语义 差距 (semantic gap) 的 问题 ， 即 HLL 中 提供 的 
操作 与 计算 机 硬件 结构 提供 的 操作 间 的 差异 。 这 种 差距 被 认为 是 执行 的 低 效 、 engl 
和 编译 器 复杂 性 的 缘由 。 设 计 者 试图 以 结构 的 改进 来 减 小 这 个 差距 。 关 键 的 做 法 包括 大 的 指令 
集 、 众 多 的 寻 址 方式 和 硬件 实现 的 各 种 HLL 语句 。 最 后 一 种 做 法 的 例子 是 VAX 机 上 的 CASE 机 
器 指令 。 这 种 复杂 指令 集 希 望 : 

© 使 编译 器 编写 者 的 任务 变 得 容易 。 

。 提高 执行 效率 ， 因 为 复杂 操作 序列 能 以 微 代 码 实 现 。 

。 提供 更 复杂 更 精致 的 HLL 支持 。 

与 此 同时 ， 确 定 HLL 程序 生成 的 机 器 指令 执行 的 特征 和 样式 ， 这 样 的 研究 已 进行 多 年 。 研 
究 结 果 促 使 设计 人 员 寻 找 一 种 截然 不 同 的 方法 : 使 支持 HLL 的 硬件 结构 更 简单 而 不 是 更 复杂 。 

因此 ,为 理解 主张 RISC 的 理由 ， 我 们 先 简单 回顾 一 下 指令 执行 特征 。 所 关注 的 涉及 计算 的 
方面 如 下 所 示 : 

© 执行 的 操作 : 这 些 操作 确定 了 CPU 及 其 与 存储 器 相互 作用 所 能 完成 的 功能 。 

© 所 用 的 操作 数 : 操作 数 类 型 和 它们 使 用 的 频 度 ， 确 定 了 存储 它们 的 存储 器 组 织 和 访问 它 

们 的 寻 址 方式 。 

e 执行 顺序 : 这 确定 了 控制 和 流水 线 的 组 织 。 

Fill, 我 们 总 结 几 个 有 关 高 级 语言 研究 的 报告 ， 所 有 这 些 都 是 动态 测量 结果 。 动 态 测量 是 通 
过 运行 程序 ， 并 统计 所 出 现 的 某 个 特征 的 次 数 ， 或 者 某 个 特征 为 真 的 次 数 ， 来 收集 得 到 的 。 相 对 
地 ， 静 态 测量 只 是 在 源 程序 文本 上 进行 统计 ， 这 不 会 给 出 很 有 用 的 性 能 信息 ， 因 为 它们 没有 对 每 
条 语句 的 执行 次 数 加 权 。 


13.1.1 操作 
已 有 不 少 研究 者 分 析 了 HLL 程序 的 行为 。 第 4 章 讨 论 过 ， 表 4-7 包括 了 这 些 研究 的 重要 结 
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论 。 在 混合 的 语言 和 应 用 的 研究 中 ， 结 论 也 具有 相当 的 趋同 性 。 赋 值 语句 在 程序 中 很 显著 ， 这 暗 
示 简 单 的 数据 传送 非常 重要 。 条 件 语句 亦 在 程序 中 占有 优势 ， 这 些 语 句 (IF, LOOP) 是 用 一 些 
比较 和 分 支 的 机 器 指令 来 实现 的 。 这 表明 指令 集 的 顺序 控制 机 制 是 关键 。 

这 些 研究 成 果 对 机 器 指令 集 设 计 人 员 具 有 指导 意义 ， 指 出 了 什么 类 型 语句 出 现 最 频繁 ， 因 
而 应 以 一 种 “优化 ”形式 来 支持 它们 。 然 而 ， 这 些 成 果 未 揭示 什么 样 的 语句 在 一 个 典型 程序 的 
执行 中 占用 了 最 大 时 间 。 也 就 是 说 ， 对 于 一 个 给 定 的 编译 后 机 器 语言 程序 ， 源 语言 中 的 什么 语句 
可 能 占有 最 多 的 机 器 语言 指令 执行 次 数 。 

为 寻找 这 种 潜在 的 规律 性 ， 研 究 者 曾 在 VAX、PDP-11 和 Motorola 68000 上 编译 Patterson 程序 
[PATT82a] ， 其 描述 可 参见 附录 4A， 以 确定 每 类 语句 的 平均 机 器 指令 数 和 平均 存储 器 访问 数 。 
K 13-2 的 第 2、 第 3 两 列 是 程序 中 各 类 HLL 语句 出 现 的 相对 频 度 。 这 些 数据 是 通过 观察 程序 运 
行 得 到 的 ， 故 它们 是 动态 频 度 统计 。 将 这 两 列 数据 乘 以 编译 器 为 各 语句 产生 的 机 器 指令 数 ， 再 将 
乘积 规范 化 就 得 到 表 中 第 4、 第 5 两 列 数据 ， 这 样 它 们 是 机 器 指令 加 权 后 各 类 HLL 语句 的 相对 出 
现 频 度 。 类 似 地 ,将 第 2、 第 3 两 列 数据 乘 以 各 语句 引起 的 存储 器 访问 相对 次 数 ， 就 得 到 第 6、 
第 7 两 列 数据 。 第 4 ~7 列 数据 提供 了 执行 各 类 语句 所 花费 时 间 度 量 的 一 种 替代 测量 值 。 此 结果 
指出 ， 过 程 调用 /返回 是 典型 HLL 程序 中 最 耗 时 的 操作 。 

读者 应 清楚 地 了 解 表 13-2 中 的 含义 。 该 表 指 出 当 HLL 程序 被 编译 到 典型 的 当代 指令 集结 构 
Hf, HLL 中 各 类 语句 的 相对 分 量 。 某 些 其 他 结构 肯定 会 产生 不 同 的 结果 。 不 过 ， 这 个 表 给 出 的 
结果 是 以 当代 复杂 指令 集 计 算 机 (CISC) 结构 为 代表 的 。 于 是 ， 它 们 能 为 寻找 支持 HLL 的 更 有 
效 方式 提供 指导 。 


表 13-2 HLI 操作 的 加 权 相 对 动态 频 度 [PATT82a] 





































动态 出 现 频 度 机 器 指令 加 权 存储 器 访问 加 权 

Pascal C C 
赋值 语句 45% 38% 15% 
循环 语句 5% 3% 26% 
调用 语句 15% 12% 45% 
判断 语句 29% 43% 13% 
直接 转移 语句 
其 他 6% = 

















13.1.2 操作 数 

虽然 操作 数 类 型 的 出 现 率 也 是 一 个 重要 课题 ， 但 在 这 方面 所 做 工作 很 少 。 操 作 数 有 几 个 方 
面 是 比较 重要 的 。 

前 面 提 到 过 的 Patterson 研究 报告 [PATT82a] 也 查看 了 各 类 变量 的 动态 出 现 频 度 ( 见 表 
13-3) Pascal 和 C 程序 的 结论 是 一 致 的 : 主要 使 用 的 是 简单 标量 变量 ， 而 且 80% 以 上 的 标量 是 
(过 程 的 ) 局 部 变量 。 另 外 ， 访 问 数组 /结构 也 要 求 先 取得 它们 的 索引 或 指针 ， 而 这 些 通常 也 是 
局 部 标量 。 于 是 ， 程 序 中 大 量 访问 的 是 标量 ， 而 且 它 们 是 高 度 局 部 化 的 。 


R133 ”操作 数 的 动态 百分比 










整数 常量 
标量 变量 
数组 /结构 


55% 


Patterson 研究 以 独立 于 底层 结构 的 方式 考察 了 HLL 程序 的 动态 行为 。 正 如 前 面 讨论 的 ， 有 
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必要 针对 实际 结构 来 更 深入 地 考察 程序 行为 。 一 项 研究 [LUND77] 动态 地 考察 了 DEC-10 指令 ， 
平均 的 统计 数据 显示 ， 每 条 指令 访问 0.5 个 存储 器 操作 数 和 1.4 个 寄存 器 操作 数 。[ HUCK83] 报 
告 对 于 运行 在 S/370、PDP-11 和 VAX 机 上 的 C, Pascal 和 FORTRAN FEF th AAR. 
然 ， 这 种 状况 很 大 程度 上 取决 于 体系 结构 和 编译 器 ， 但 它们 说 明了 操作 数 存 取 的 频 度 。 

这 些 后 来 的 研究 显示 ， 因 为 操作 数 存 取 如 此 频繁 ， 所 以 采用 快速 存 取 的 结构 将 起 重要 作用 。 
Patterson 研究 揭示 ， 优 化 的 主 选 方向 应 是 对 局 部 标量 变量 的 存储 和 访问 。 


13.1.3 过程 调用 


我 们 已 经 看 到 ， 过 程 调用 和 返回 是 HLL 程序 的 一 个 重要 部 分 。 表 13-2 指出 ， 它 们 是 编译 后 
的 HLL 程序 中 最 耗 时 的 操作 。 于 是 ， 考 虑 高 效 地 实现 这 些 操作 的 方式 将 是 有 益 的 。 其 中 两 个 方 
面 有 显著 意义 : 过 程 使 用 的 参数 及 变量 的 数量 和 肉 套 的 深度 。 

在 Tanenbaum 的 研究 [TANE78] 中 指出 ，98% 的 动态 调用 过 程 中 传送 的 参数 少 于 6 个 ， 而 
且 其 中 92% 使 用 少 于 6 个 局 部 标量 变量 。Berkeley 的 RISC 小 组 报告 了 类 似 的 结果 [KATE83 ] ， 
如 表 13-4 所 示 。 这 些 结论 表明 ， 每 个 过 程 调用 所 需 字 的 数目 是 不 多 的 。 前 面 介绍 的 一 些 研 究 报 
告 曾 指出 ， 操 作 数 访问 的 绝 大 部 分 是 对 局 部 标量 变量 的 访问 。 这 些 研究 报告 又 指出 ， 这 些 访问 实 
际 上 只 是 限定 在 相对 少数 变量 上 。 


表 13-4 过 程 参数 和 局 部 标量 变量 
带 下 列 参数 数目 的 过 程 调用 所 占 的 百分比 编译 器 、 解 释 器 和 排版 程序 小 型 非 数值 程序 


>3 参数 0% ~7% 0% ~5% 
>5 参数 0% ~3% 0% 

>8 字 的 参数 和 局 部 标量 1% ~20% 0% ~6% 
>12 字 的 参数 和 局 部 标量 1% ~6% 0% ~3% 











Berkeley 小 组 也 研究 了 HLL 程序 中 过 程 调用 和 返回 的 样式 。 他 们 发 现 很 少 出 现 这 种 情况 : 一 
系列 长 的 不 被 打 断 的 调用 后 面 跟着 一 系列 相应 的 返回 。 确 切 地 说 。 他 们 发 现 程序 保持 在 相当 罕 
的 过 程 调用 窗口 区 域内 。 这 已 在 图 4-21 中 说 明 过 。 这 些 成 果 进 一 步 证 实 了 操作 数 访问 是 “高 度 
局 部 化 ”的 这 一 结论 。 


13.1.4 推论 


一 些 研究 组 考察 了 上 述 这 些 报告 的 结果 后 认为 : 试图 让 指令 集结 构 更 接近 HLL 并 不 是 一 个 
有 效 的 策略 。 相 反 ， 通 过 优化 典型 HLL 程序 中 最 耗 时 操作 的 性 能 ， 能 更 好 地 支持 HLL, 

由 不 少 研究 者 的 工作 可 发 现 ， 总 的 来 说 ，RISC 结构 特征 通常 体现 在 以 下 三 点 : 首先 是 使 用 
大 量 的 寄存 器 ， 这 样 可 以 优化 操作 数 的 访问 。 正 如 前 面 讨论 所 示 ， 每 个 HLL 指令 都 有 几 次 操作 
BUI, FHA RE) 语句 在 程序 中 占有 很 高 的 份额 。 这 些 再 结合 局 部 性 和 标量 访问 的 主 
导 性 ， 表 明 可 以 通过 采取 更 多 寄存 器 访问 的 方式 ， 来 降低 内 存 访 问 次 数 ， 从 而 提高 性 能 。 由 于 这 
些 访 问 的 局 部 性 ， 一 个 可 扩展 的 寄存 器 组 看 起 来 是 符合 实际 的 。 

其 次 ， 要 精心 谨慎 地 设计 指令 流水 线 。 由 于 条 件 分 支 和 过 程 调 用 指令 的 高 比例 ， 一 个 过 于 简 
单 的 指令 流水 线 将 是 低 效 的 。 因 为 它 本 身 可 能 表现 出 大 量 的 指令 被 预 取 但 却 永 不 执行 。 

最 后 ， 人 研究 报告 也 指出 了 对 简单 (减少 ) 的 指令 集 的 需求 。 这 点 目前 虽 不 像 其 他 问题 那样 
明显 ， 但 在 随后 的 讨论 中 变 得 更 加 明确 。 


13.2 大 寄存 器 组 方案 的 使 用 
13.1 节 概 述 的 研究 成 果 指 出 了 对 操作 数 快 速 存 取 的 要 求 。 我 们 已 经 看 到 ， 在 HLL 程序 中 有 
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大 量 的 赋值 语句 ， 其 中 多 数 是 简单 的 A+B 形式 。 还 有 ， 每 个 HLL 语句 都 有 一 定数 量 的 操作 数 访 
问 。 若 再 考虑 到 大 多 数 访问 的 是 局 部 标量 ， 则 侧重 于 寄存 器 访问 应 是 推荐 使 用 的 。 

采用 寄存 器 的 理由 是 ， 寄 存 器 是 比 主 存 和 cache 还 要 快 的 最 快 可 用 存储 装置 。 寄 存 器 组 从 物 
理 上 讲 是 小 的 ， 通 常 是 与 ALU 和 控制 器 在 同一 芯片 上 ， 并 且 它 们 使 用 比 主 存 和 cache 地 址 还 要 短 
的 地 址 。 于 是 ， 需 要 一 种 策略 能 使 最 频繁 访问 的 操作 数 保持 在 寄存 器 中 ， 并 减少 “寄存 器 -存储 
器 ”操作 。 

有 两 种 基本 途径 可 实现 这 个 目标 ， 一 种 是 基于 软件 ， 另 一 种 是 基于 硬件 。 软 件 方法 是 依赖 编 
译 器 使 寄存 器 的 使 用 率 最 大 化 。 编 译 器 将 试图 把 寄存 器 分 配给 那些 在 一 给 定时 间 期 内 使 用 最 多 
的 变量 。 这 种 方法 要 求 使 用 复杂 的 程序 分 析 算 法 。 硬 件 方法 是 简单 地 装备 更 多 的 寄存 器 ， 使 得 更 
多 的 变量 能 更 长 时 间 地 保持 在 寄存 器 中 。 

本 节 将 讨论 硬件 方法 ， 这 种 方法 是 Berkley RISC 小 组 首先 提出 的 【PATT82a ] ， 并 用 于 最 初 
的 RISC 商业 产品 Pyramid 中 [ RAGA83 ] 。 


13.2.1 寄存 器 窗口 


就 表面 上 来 判断 ， 使 用 一 大 组 寄存 器 应 能 减少 对 存储 器 访问 的 需求 。 因 此 ， 设计 的 任务 就 是 
很 好 地 组 织 寄存 器 来 实现 这 个 目标 。 

因为 大 多 数 操作 数 是 局 部 标量 ， 一 种 明显 的 方法 是 使 用 寄存 器 来 保存 它们 ， 或 许 再 将 少量 
寄存 器 保留 给 全 局 变量 。 问 题 是 这 个 “局 部 的 ”定义 是 随 着 每 次 过 程 调用 和 返回 而 改变 的 ， 而 
过 程 调用 和 返回 又 是 频繁 出 现 的 操作 。 每 次 调用 时 ， 寄 存 器 中 的 局 部 变量 必须 被 送 到 存储 器 保 
存 ， 以 使 这 些 寄存 器 能 由 调用 程序 再 次 使 用 。 而 且 ， 还 需要 传送 过 程 调用 的 参数 。 返 回 时 ， 父 程 
序 的 变量 必须 恢复 (装载 回 寄存 器 ) ， 并 且 结 果 也 要 返回 到 父 程序 。 

解决 的 方法 是 基于 13.1 节 报 告 过 的 另外 两 个 结论 。 第 一 ， 一 个 典型 的 过 程 只 使 用 少数 传送 
参数 和 局 部 变量 。 第 二 ， 过 程 调用 的 深度 仅 限定 在 一 个 相对 穿 的 范围 内 ( 见 图 4-16 ) 。 为 利用 这 
些 性 质 ， 使 用 多 个 小 的 寄存 器 组 ， 每 个 小 组 指派 给 一 个 不 同 的 过 程 。 过 程 调用 时 自动 地 切换 来 使 
用 不 同 的 但 大 小 固定 的 寄存 器 窗口 ， 而 不 再 在 存储 器 保存 寄存 器 内 容 。 相 邻 过 程 的 窗口 是 (部 
分 ) BBW, URSA. 

图 13-1 说 明了 这 个 概念 。 任 何 时 刻 ， 只 有 一 个 寄存 器 窗口 是 可 见 和 可 寻 址 的 ， 就 像 它 是 唯 
一 的 一 组 寄存 器 一 样 ( 例 如 ， 地 址 0 至 入 -1)。 窗 口 分 成 三 个 固定 大 小 区 域 : 参数 寄存 器 域 、 局 
部 寄存 器 域 和 临时 寄存 器 域 。 参 数 寄存 器 用 来 
保存 调用 当前 过 程 的 过 程 〈 即 父 过 程 ) 向 下 传 
递 的 参数 和 将 被 返回 的 结果 。 局 部 寄存 器 用 于 
局 部 变量 ， 这 由 编译 器 指派 。 临 时 寄存 器 用 于 
当前 过 程 与 下 一 级 过 程 (被 当前 过 程 调用 的 过 
程 ， 即 子 过 程 ) 交换 参数 和 结果 。 某 一 级 的 临 
时 寄存 器 与 下 一 级 的 参数 寄存 器 是 物理 同一 图 13-1 BBWAA 
的 ， 这 种 重 有 准许 不 用 实际 移动 数据 就 能 传递 参数 。 记 住 ， 除 了 重 释 的 情况 之 外 ， 两 个 不 同 级 的 
寄存 融 窗 口 在 物理 上 是 完全 不 同 的 。 也 就 是 说 ,第 J 级 的 参数 和 局 部 寄存 器 与 第 J +1 级 的 局 部 
和 临时 寄存 器 是 不 相交 的 。 

为 管理 任何 可 能 的 调用 和 返回 的 模式 ， 寄 存 器 窗口 的 数目 应 该 是 不 受 限 制 的 。 不 过 这 是 不 
可 能 的 ， 蔡 代 的 方法 是 ， 寄 存 器 窗口 只 用 于 保持 少数 最 近 过 程 的 调用 。 更 早 的 过 程 调用 必须 保存 
到 存储 器 中 ， 当 骨 套 深度 减少 时 再 恢复 。 于 是 ， 寄 存 器 组 的 实际 组 织 是 一 个 由 重 私 窗口 组 成 的 环 
形 缓冲 器 。 这 种 方式 值得 一 提 的 例子 是 Sun 的 SPARC 体系 结构 ，13.7 节 将 有 其 描述 ， 以 及 Intel 
公司 Itanium 处 理 器 所 采用 的 IA-64 体系 结构 ， 第 21 章 将 有 其 描述 。 
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图 13-2 说 明了 这 种 环形 组 织 形 式 ， 它 描述 的 是 一 个 6 窗口 的 环形 缓冲 器 。 缓 冲 器 已 填充 到 
深度 4 (A 调用 B，B 调用 C，C 调用 D) ， 而 过 程 D 是 当前 活动 的 过 程 。 当 前 窗口 指针 (current- 
window pointer，CWP) 指向 当前 活动 过 程 的 窗口 。 机 器 指令 的 寄存 器 引用 是 一 个 对 此 指针 的 位 
移 ， 以 此 来 确定 实际 使 用 的 物理 寄存 器 。 保 
存 窗 口 指 针 (saved-window Pointer, SWP ) 
标识 最 近 保存 在 存储 器 的 窗口 。 若 当前 过 程 
D 又 调用 过 程 卫 , E 的 初始 参数 放 在 D 窗口 
的 临时 寄存 器 中 (图 中 w3 和 w4 的 重 和 部 
分 ) ，CWP 前 进 一 个 窗口 。 

若 过 程 下 又 调用 过 程 f， 则 以 目前 的 缓 
冲 器 状况 ， 此 调用 不 能 立即 进行 。 这 是 因为 
F 的 窗口 重要 了 A 的 窗口 。 若 了 开始 对 它 的 
临时 寄存 器 装 人 和 人 数据， 准备 一 个 调用 ， 就 会 
改写 A 的 参数 寄存 器 (Ain), FÆ, 4 
CWP 递增 ( 模 6) 变 成 等 于 SWP 时 ， 一 个 中 
断 就 会 发 生 。 在 中 断 处 理 中 ，A 的 窗口 被 保 





存 。 保 存 时 只 需要 保存 窗口 的 前 两 部 分 (A.in amA 
和 A.loc) 需要 保存 。 然 后 ，SWP 递增 ， 现 在 _ ji 


可 调用 了 过程 了 。 返 回 时 也 会 出 现 类 似 的 中 13.2” 重 得 窗口 的 环形 缓冲 组 织 
断 。 例 如 ， 在 Ff 过 程 完 成 之 后 逐 级 地 返回 ， 
当 B 返回 到 A 时 ，CWP 被 递减 变 成 等 于 SWP， 这 将 引起 中 断 ， 导 致 A 窗口 的 恢复 。 

由 此 可 见 ，N 个 窗口 的 寄存 器 组 仅 能 用 于 NN - 1 个 过 程 的 调用 。N 值 不 需要 很 大 ， 正 如 前 面 
(附录 4A) 提 到 过 的 ， [TAMI83 ] 研究 报告 指出 仅 有 1% 的 过 程 调用 和 返回 需要 8 个 窗口 。 
Berkeley RISC 计算 机 使 用 8 个 窗口 ， 每 个 窗口 有 16 个 寄存 器 。Pyramid 计算 机 使 用 16 个 窗口 ， 
每 个 窗口 有 32 个 寄存 器 。 


13.2.2 全 局 变量 


刚才 介绍 的 窗口 策略 为 在 寄存 器 中 存储 局 部 标量 变量 提供 了 一 种 有 效 的 组 织 形式 。 然 而 ， 
这 种 策略 没有 解决 存储 全 局 变量 的 需求 。 全 局 变量 由 多 个 过 程 所 使 用 ， 解 决 它 有 两 种 方法 。 首 
先 ， 由 编译 器 为 高 级 程序 设计 语言 (HL) 中 声明 的 全 局 变量 指派 存储 器 位 置 ， 所 有 访问 这 些 变 
量 的 机 器 指令 将 使 用 存储 器 引用 的 操作 数 。 无 论 从 硬件 观点 还 是 从 软件 〈 编 译 器 ) 观点 看 ， 这 
种 方法 都 是 直截了当 的 。 然 而 ， 对 于 频繁 访问 的 全 局 变量 来 说 ， 这 种 策略 是 低 效 的 。 

蔡 代 的 方法 是 ，CPU 中 包括 有 一 组 全 局 寄存 器 ， 这 些 寄存 器 的 数量 是 固定 的 并 可 被 所 有 过 
程 使 用 。 一 种 统一 编号 的 方法 能 用 来 简化 指令 格式 。 例 如 ， 寄 存 器 引用 号 0 ~7 指 的 是 唯一 一 组 
全 局 寄存 器 ， 对 寄存 器 8 ~31 的 访问 指 的 是 当前 窗口 内 的 具体 寄存 器 。 对 于 分 立 的 寄存 器 寻 址 而 


< 


言 ， 这 会 增加 硬件 负担 。 另 外 ， 编 译 器 也 必须 决定 哪些 全 局 变量 应 指派 到 全 局 寄存 器 。 


13.2.3 ”大 寄存 器 组 与 高 速 缓存 的 对 比 


组 织 成 窗口 的 寄存 器 组 ， 其 作用 就 像 一 个 小 的 快速 的 缓冲 器 ， 保 持 着 可 能 多 次 使 用 的 所 有 
变量 的 一 个 子 集 。 从 这 个 意义 上 讲 ， 寄 存 器 组 的 作用 非常 像 一 个 高 速 缓存 存储 器 。 于 是 ， 就 引出 
一 个 问题 ， 使 用 cache 还 是 使 用 小 的 传统 的 寄存 器 组 ， 哪 一 种 更 简单 、 更 好 。 

表 13-5 比较 了 两 种 方法 的 特征 。 基 于 窗口 的 寄存 器 组 保持 着 最 近 N -1 个 过 程 调用 的 所 有 局 
部 标量 变量 ( 除 少 有 的 窗口 上 溢 情 况 之 外 )。cache 是 有 选择 地 保持 最 近 使 用 过 的 标量 变量 。 寄 
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存 器 组 节省 了 时 间 ， 因 为 它 保留 了 所 有 局 部 标量 变量 。 而 cache 能 更 有 效 地 利用 空间 ， 因 为 它 能 
对 动态 变化 的 情况 做 出 反应 。 而 且 ，cache 通常 是 将 所 有 的 存储 器 调用 ， 包 括 指令 和 其 他 数据 类 
型 一 样 地 对 待 。 于 是 ， 使 用 cache 做 到 其 他 方面 的 节省 是 可 能 的 ， 而 寄存 器 组 却 不 行 。 

寄存 器 组 在 空间 利用 方面 比较 低 效 ， 因 为 不 是 所 有 过 程 都 使 用 分 配给 它们 的 全 部 窗口 空间 。 
另外 ，cache 承受 另 一 类 的 低 效 : 数据 是 成 块 读 和 人 cache 的 。 而 寄存 器 组 仅 容纳 有 用 的 变量 。 
cache 读 和 一 大 块 数据 ， 但 其 中 部 分 甚至 更 多 的 数据 将 不 会 使 用 。 

cache 能 处 理 局 部 变量 和 全 局 变量 。 通常 有 很 多 全 局 标量 , 但 只 有 少数 是 频繁 使 用 的 
[KATE83 ] cache 将 动态 地 发 现 这 些 变量 并 保持 它们 。 若 基于 窗口 的 寄存 器 组 补充 有 全 局 寄存 
器 ， 则 它 也 能 保持 某 些 全 局 标量 。 然 而 ， 让 编译 器 来 确定 全 局 标量 的 使 用 频率 却 是 一 件 困 难 的 
事情 。 

13-5 ”大 寄存 器 组 和 cache 组 织 的 特征 








大 寄存 器 组 cache 
所 有 局 部 标量 最 近 使 用 过 的 局 部 标量 
各 个 变量 存储 器 块 
编译 器 指派 的 全 局 变量 最 近 使 用 过 的 全 局 变量 
保存 /恢复 基于 过 程 的 媒 套 深度 保存 /恢复 基于 cache 替换 算法 
寄存 器 寻 址 存储 器 寻 址 





使 用 寄存 器 组 ， 寄 存 器 和 存储 器 间 的 数据 传送 由 过 
程 舱 套 深 度 所 确定 。 因 为 这 个 深度 通常 是 在 一 个 窄 的 范 
围 内 摆动 ， 故 存储 器 的 使 用 相对 不 太 频 繁 。 大 多 数 
cache 是 一 种 组 关联 结构 ， 组 的 容量 较 小 。 于 是 ， 存 在 
一 种 危险 ， 其 他 的 数据 或 指令 可 能 会 排挤 走 那些 要 频繁 
使 用 的 变量 。 a) 基于 寄存 器 组 的 窗口 

讨论 至 此 ， 在 大 的 基于 窗口 的 寄存 器 组 与 cache 之 指令 
间 应 选择 谁 ， 还 不 是 很 清楚 。 然 而 ， 有 一 个 特征 能 说 明 
寄存 器 方法 占有 明显 优势 基于 cache 的 系统 是 明显 
较 慢 的 。 这 个 区 别 在 于 两 种 方法 的 寻 址 开销 总 量 上 。 

图 13-3 说 明了 这 种 区 别 。 为 访问 基于 窗口 寄存 器 
组 中 的 一 个 局 部 标量 ， 要 使 用 一 个 窗口 号 和 一 个 “ 虚 
拟 的 ”寄存 器 号 。 这 些 通过 一 个 相对 简单 的 译 码 器 来 
选择 某 一 个 具体 的 寄存 器 。 为 访问 cache 存储 器 中 的 一 
个 位 置 ， 必 须 生 成 全 宽度 的 地 址 。 这 种 操作 的 复杂 性 取 
决 于 寻 址 方式 。 在 一 个 组 关联 的 cache 中 ， 地 址 的 一 部 
分 用 于 读 取 数目 等 同 于 组 长 度 的 几 个 字 和 标记 (tag)。 
地 址 的 另 一 部 分 用 于 与 标记 进行 比较 ， 以 选择 所 读 的 一 图 133 访问 一 个 标量 
个 字 。 这 一 点 应 是 很 清楚 的 ， 尽 管 cache 能 与 寄存 器 组 一 样 地 快 ， 但 cache 的 存 取 时 间 肯 定 要 长 。 
于 是 ， 从 性 能 观点 看 ， 基 于 窗口 的 寄存 器 组 对 于 局 部 标量 而 言 是 更 优化 的 。 通 过 加 入 专门 的 指令 
cache， 能 进一步 改善 性 能 。 


13.3 ”基于 编译 器 的 寄存 器 优化 

我 们 现在 假定 目标 RISC 机 器 上 只 有 少量 寄存 器 可 用 (如 16 ~32 个 ) 。 这 种 情况 下 ， 优 化 寄 
存 器 的 使 用 就 是 编译 器 的 责任 了 。 用 高 级 语言 编写 的 程序 自然 没有 对 寄存 器 的 显 式 引 用 ， 程 序 
中 的 量 是 以 符号 来 表示 的 。 编 译 器 的 目标 就 是 ， 尽 可 能 在 寄存 器 中 而 不 是 在 主 存 中 为 多 数 计算 











b) cache 
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保持 操作 数 ， 并 且 减 少 装载 和 保存 操作 。 

通常 ， 所 采取 的 方法 如 下 所 述 。 准 备 驻 留 在 寄存 器 中 的 每 个 程序 量 先 被 指派 到 一 个 符号 的 
或 虚拟 的 寄存 器 ， 然 后 编译 器 再 将 这 些 未 限定 数目 的 符号 寄存 器 映射 到 固定 数目 的 真实 寄存 器 
上 。 那 些 使 用 不 重 和 至 的 符号 寄存 器 能 共享 同一 真实 寄存 器 。 若 在 程序 具体 运行 的 某 个 期 间 ， 需 要 
处 理 的 量 多 于 真实 寄存 器 数目 ， 则 某 些 量 被 指派 到 存储 器 位 置 上 。 装 载 和 保存 指令 能 把 要 计算 
的 量 暂时 放置 到 寄存 器 中 。 

优化 任务 的 本 质 是 ， 判 定 在 程序 的 任何 给 定时 间 点 ， 什 么 样 的 量 应 指派 到 寄存 器 中 。 在 
RISC 编译 器 中 普遍 使 用 一 种 称 为 图 着 色 (graph coloring) 的 技术 ， 这 是 由 拓扑 学 借用 过 来 的 技 
A [ CHAI82, CHOW86, COUT86, CHOW90] 。 

图 着 色 的 做 法 是 这 样 的 。 对 于 一 个 由 结 点 和 边 组 成 的 给 定 图 ， 为 结 点 指定 颜色 ， 并 使 相 邻 结 
点 不 同色 ， 而 且 要 使 颜色 的 数目 最 少 。 这 个 问题 以 如 下 方式 转换 成 编译 器 问题 。 首 先 ， 分 析 程 序 
并 构成 一 个 寄存 器 相关 图 。 图 的 结 点 是 符号 寄存 器 ， 若 两 个 符号 寄存 器 同时 “生存 ”于 同一 程 
序 段 ， 则 相应 的 两 个 结 点 用 一 条 边 连接 起 来 以 指示 它们 相关 。 尝 试用 n 种 颜色 给 图 上 色 。 这 里 的 
n 是 真实 寄存 器 的 数目 。 若 这 个 过 程 不 能 完全 成 功 ， 那 么 这 些 不 能 上 色 的 结 点 必须 放 人 存储 器 
中 ,并 且 当 需要 它们 时 ， 必 须 使 用 装载 和 保存 操作 给 它们 开辟 寄存 器 空间 。 

图 13-4 是 这 种 做 法 的 一 个 简单 例子 。 假 定 程序 有 6 个 符号 寄存 器 将 被 编译 到 3 个 实际 寄存 








器 上 。 图 13-4a 表示 每 个 符号 寄存 器 

符号 寄存 器 有 效 使 用 的 人 E R EA 

时 间 顺序 ,图 13-4b 表示 EJee 
寄存 器 相关 图 。 这 里 指 

出 了 一 种 使 用 三 种 颜色 E| 2 === re 

给 图 着 色 的 可 能 方法 。 WII a oppo erp te 

一 个 符号 寄存 器 下 未 能 | 

上 色 ， 必 须 使 用 装载 和 ee 

保存 操作 来 处 理 。 Rl RR RS 

的 寄存 器 优化 之 间 有 一 图 13-4 图 着 色 法 


个 权衡 考虑 的 问题 。 例 如 ，[ BRAD91a] 是 在 一 个 具有 类 似 于 Motorola 88000 和 MIPS R2000 特色 
的 RISC 结构 的 模型 机 上 所 做 的 研究 报告 。 他 们 选取 了 不 同 的 寄存 器 的 数目 (从 16 ~ 128 ) ， 既 考 
虑 到 所 有 寄存 器 都 作为 通用 寄存 器 使 用 ， 也 考虑 到 将 寄存 器 分 成 整数 寄存 器 和 浮 点 寄存 器 的 使 
用 。 他 们 的 研究 表明 ， 若 只 有 相当 简单 的 寄存 器 优化 ， 那 么 使 用 多 于 64 个 寄存 器 几乎 不 带 来 好 
处 。 使 用 相当 精致 的 寄存 器 优化 技术 ， 当 使 用 多 于 32 个 寄存 器 时 ， 带 来 的 性 能 改善 也 是 不 明显 
的 。 最 后 ， 他 们 指出 ， 只 有 少量 的 寄存 器 (如 16 个) 时 ， 具 有 共享 寄存 器 组 织 的 机 器 要 比 具 有 
分 立 寄存 器 组 织 的 机 器 执行 得 更 快 。 类 似 的 结论 由 [HUGU91] 得 出 ， 他 们 的 研究 主要 关心 的 是 
使 用 少量 寄存 器 的 优化 问题 ， 而 不 是 将 大 量 寄存 器 的 使 用 与 优化 来 做 比较 。 


13.4 精简 指令 集体 系 结构 

本 节 将 考察 精简 指令 集体 系 结构 的 一 般 特 征 及 其 发 展 的 原因 。 本 章 稍 后 将 给 出 具体 的 例子 。 
首先 ， 我 们 讨论 当代 复杂 指令 集结 构 的 发 展 原因 。 
13.4.1 采用 CISC 的 理由 

我 们 已 指出 过 朝 更 丰富 指令 集 发 展 的 趋势 ， 这 包括 更 大 数量 的 指令 和 更 复杂 的 指令 。 推 动 
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这 一 趋势 的 两 个 基本 理由 是 : 要 求 简化 编译 器 和 改善 性 能 。 这 两 个 理由 之 下 的 根本 性 原因 是 ， 大 
部 分 程序 员 已 转移 到 高 级 语言 (HLL) 上 ， 厂 家 试图 设计 能 对 HLL 提供 更 好 支持 的 机 器 。 

本 章 并 不 是 说 CISC 设计 人 员 选 错 了 方向 。 的 确 ， 技 术 还 在 发 展 ， 处 理 器 结构 存在 着 广泛 类 
型 而 不 是 两 种 纯 类 型 ， 因 此 想 做 一 个 黑白 分 明 的 评定 是 不 太 可 能 的 。 于 是 ， 下 面 的 解释 只 是 指出 
CISC 方法 的 某 些 潜在 缺陷 ， 并 提供 对 RISC 发 展 动因 的 一 些 理解 。 

采用 CISC 的 第 一 个 理由 一 一 简化 编译 器 ， 看 起 来 是 很 明了 的 。 编 译 器 的 任务 就 是 为 每 个 
HLL 语句 产生 一 个 机 器 指令 序列 。 若 有 类 似 于 HLL 语句 的 机 器 指令 ， 那 任务 就 简单 多 了 。 但 
RISC 研究 者 对 这 个 理由 提出 了 异议 ([ HENN82,RADI83, PATT82b] ) 。 他 们 发 现 复杂 指令 难以 使 
用 ， 因 为 编译 器 必须 找到 严格 满足 限制 的 情况 。 像 优化 生成 的 代码 ， 以 达到 减 小 代码 长 度 、 减 少 
指令 执行 数目 和 增强 流水 这 样 的 任务 ， 使 用 复杂 指令 集 也 是 非常 困难 的 。 作 为 这 个 观点 的 证 据 ， 
本 章 前 面 所 援引 的 一 些 研究 报告 曾 指出 ， 编 译 后 程序 中 的 大 多 数 指令 都 是 相当 简单 的 。 

前 面 提 到 的 采用 CISC 的 另 一 个 理由 是 ，CISC 可 生成 更 小 、 更 快 的 程序 。 我 们 考察 这 个 主张 
的 两 个 方面 : 程序 将 更 小 并 且 执行 得 更 快 。 

小 程序 有 两 个 优点 。 首 先 ， 程 序 占用 内 存 少 ， 这 就 节省 了 资源 。 但 今天 的 存储 器 价格 已 如 此 
廉价 ， 以 至 于 这 个 潜在 的 优点 不 再 令 人 信服 。 更 重要 的 是 ， 较 小 的 程序 能 改善 性 能 。 这 表现 在 两 
个 方面 : 一 是 较 少 的 指令 意味 着 待 取 的 指令 字 节 也 少 ; 二 是 内 存 分 页 环境 下 ， 较 小 的 程序 占据 较 
少 的 页 ,减少 了 缺 页 中 断 。 

与 这 个 理由 并 存 的 问题 是 : CISC 程序 将 小 于 相应 的 RISC 程序 ， 但 这 一 点 远 不 像 看 起 来 那么 
肯定 。 多 数 情况 下 ， 以 符号 机 器 指令 表示 的 CISC 程序 是 会 “ 短 ” 些 ( 即 较 少 的 指令 )， 但 它们 
所 占据 的 存储 器 位 数 却 不 见得 更 “小 ”。 表 13-6 列 出 了 来 自 三 个 研究 的 结果 ， 比 较 了 几 类 机 器 
上 的 编译 后 C 程序 的 大 小 ， 其 中 包括 精简 指令 集结 构 的 RISC I。 注 意 ，CISC H RISC 没有 或 只 有 
少许 的 节省 。 另 一 点 也 是 值得 注意 的 ，VAX E PDP - 11 的 程序 并 无 大 量 减少 ， 而 前 者 比 后 者 采 
用 了 更 为 复杂 的 CISC 结构 。 这 些 结果 也 得 到 IBM 研究 人 员 的 赞同 [RADI83 ] ， 他 们 发 现 IBM 
801 (一 台 RISC 机 器 ) 产生 的 代码 只 是 IBMS/370 产生 代码 的 0.9 倍 。 他 们 的 研究 使 用 了 一 组 
PL/I 程序 。 


表 13-6 ”相对 于 RISC | 的 代码 大 小 







[PATT82a] 11 个 C 程 序 [KATE83] 12 ^ C F [HEAT84] 5 个 人 C 程序 








RISC I 1.0 1.0 
VAX-11/780 0.8 

M68000 0.9 0.9 
Z8002 T2 1.12 





PDP-11/70 


有 几 个 理由 可 解释 这 些 令 人 惊奇 的 结果 。 我 们 曾 指出 过 ，CISC 上 的 编译 器 有 偏爱 简单 指令 
的 倾向 ， 结 果 使 得 复杂 指令 所 提供 的 简洁 性 很 少 能 发 挥 作用 。 还 有 ，CISC 上 更 多 的 指令 数 要 求 
较 长 的 操作 码 ， 这 使 指令 较 长 。 最 后 ，RISC 强调 寄存 器 而 不 是 存储 器 的 访问 ， 因 而 要 求 的 指令 
位 数 也 少 。 最 后 一 种 效应 的 例子 ， 见 下 一 小 节 对 图 13.5 的 讨论 。 

因此 ， 期 望 CISC 能 产生 较 小 的 程序 并 带 有 其 他 优点 ， 是 不 太 现 实 的 。 增 加 指令 集 复 杂 性 的 
第 二 个 动因 是 它 的 指令 执行 可 能 会 更 快 。 看 起 来 这 个 观点 是 言 之 有 理 的 ， 一 个 复杂 的 HLL 操作 ， 
作为 一 条 机 器 指令 将 会 比 作为 一 串 更 原始 的 指令 执行 得 更 快 。 然 而 ， 因 为 实际 情况 是 偏向 使 用 
较为 简单 指令 ， 因 此 上 述 的 想法 不 见得 成 立 。 为 适应 丰富 的 指令 集 ， 整 个 控制 器 必须 做 得 更 复 
杂 ， 而 且 微 程序 控制 存储 也 必须 做 得 更 大 。 不 论 哪 种 因素 都 增加 了 简单 指令 的 执行 时 间 。 

实际 上 ， 某 些 研 究 者 已 发 现 ， 加 速 复杂 函数 的 执行 不 在 于 复杂 的 机 器 指令 是 多 么 强 有 力 ， 而 
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在 于 它们 驻 留 在 高 速 控制 存储 中 [RADI83 ] 。 该 控制 存储 实际 上 起 到 指令 cache 的 作用 。 于 是 ， 
硬件 结构 研究 者 面临 的 任务 便 是 ， 确 定 什么 样 的 子 程序 或 者 函数 将 使 用 得 最 频繁 ， 然 后 将 它们 
指派 到 控制 存储 中 ， 通 过 微 代码 实现 它们 。 然 而 结果 并 不 那么 令 人 鼓舞 。 于 是 ， 在 S/390 系统 
上 ， 像 翻译 (translate) 和 扩展 精度 的 浮 点 除法 (extended-precision-floating-point-divide ) 这 样 的 
指令 驻 留 在 高 速 存储 中 ， 而 涉及 建立 过 程 调用 或 初始 中 断 处 理 程 序 这 样 重 要 的 指令 序列 反而 放 
在 较 慢 的 主 存 中 。 

于 是 ， 朝 更 加 复杂 指令 集 方向 发 展 是 否 合适 ， 远 不 是 那么 清楚 ， 这 导致 了 几 个 研究 组 朝 相 反 
的 方向 探索 。 


13.4.2 ”精简 指令 集体 系 结构 特征 


虽然 精简 指令 集结 构 可 能 采取 各 种 不 同 的 方法 ,但 某 些 特征 对 它们 都 是 共同 的 。 这 些 特征 包括 : 

每 周期 一 条 指令 、 寄 存 器 到 寄存 器 的 操作 、 简 单 的 寻 址 方式 、 简 单 的 指令 格式 。 

下 面 我 们 简要 介绍 这 些 特征 ， 稍 后 再 给 出 具体 的 例子 。 

第 一 个 特征 是 ， 每 机 器 周期 一 条 机 器 指令 。 机 器 周期 (machine cycle) 被 定义 成 由 寄存 器 取 
两 个 操作 数 ， 完 成 一 个 ALU 操作 ， 然 后 再 将 结果 写 人 寄存 器 所 用 的 时 间 。 Te, RISC 机 器 指令 
不 会 比 CISC 机 器 上 的 微 指令 复杂 ， 执 行 大 约 也 是 一 样 快 。 简 单 的 单 周期 指令 很 少 或 没有 对 微 代 
码 的 需求 ， 机 器 指令 能 以 硬 布线 方式 实现 。 这 样 的 指令 应 SEALE LASS BRS AIRE 
快 ， 因 为 在 指令 执行 期 间 它 不 必 去 访问 微 程 序 控制 存储 器 。 

第 二 个 特征 是 ， 大 多 数 操作 应 是 寄存 器 到 寄存 器 的 ， 只 以 简单 的 LOAD 和 STORE 操作 访问 
存储 器 。 这 个 设计 特点 简化 了 指令 集 ， 进 而 也 简化 了 控制 器 。 例 如 ， 一 个 RISC 指令 集 可 只 包括 
一 条 或 两 条 ADD 指令 〈 如 整数 加 、 带 进位 加 ) ， 而 VAX 有 25 种 不 同 的 ADD 指令 。 这 种 结构 的 
另 一 好 处 是 : 它 鼓 励 寄存 器 的 优化 使 用 ， 使 频繁 存 取 的 操作 数 保 留 在 高 速 存储 中 。 

这 种 对 寄存 器 到 寄存 器 操作 的 强调 ， 对 于 RISC 设计 是 特别 值得 注意 的 。 虽 然 其 他 当代 机 器 
也 提供 这 种 指令 ， 但 它们 还 包括 存储 器 到 存储 器 和 混合 的 寄存 器 /存储 器 操作 。 对 这 些 不 同 设计 
方法 的 比较 是 在 1970 年 完成 的 ， 在 RISC 出 现 之 前 。 图 13-5a 说 明了 所 采取 的 方法 。 评 价 原型 结 
构 只 在 于 比较 程序 的 大 小 和 传输 的 存储 器 位 数 。 这 样 的 结果 曾 使 一 个 研究 人 员 建 议 ， 将 来 的 结 
构 应 完全 不 含有 任何 寄存 器 [ MYER78 ]。 人 们 奇怪 他 怎么 会 这 样 想 ， 那 个 时 候 (1978 Æ), 
RISC #L# Pyramid 已 经 面市 ， 
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它 含 有 不 少 于 528 个 寄存 器 。 es ee ae eee 
这 些 研 究 遗 漏 的 是 ， 对 少 存储 器 到 存储 器 
量 局 部 标量 的 频繁 访问 ， 和 以 人 
大 量 的 寄存 器 或 优化 的 编译 器 
能 使 大 多 数 操作 数 长 时 间 地 保 寄存 器 到 存储 器 


a) A—B+C 1=104, D=96, M=200 


持 在 寄存 器 中 。 于 是 ， 前 面 的 
图 13-5b 可 能 是 更 公平 的 比较 。 


4 4 4 





Add RC 
第 三 个 特征 是 使 用 简单 的 a a 
寻 址 方式 。 几 乎 全 部 指令 都 使 SD | Sub _[RD|RD| RB 
E FRE Hl 
用 寄存 器 寻 址 方式 ， 其 他 几 种 = 18, a, M=456 ee ee 
寻 址 方式 ， 像 偏 移 寻 址 和 PC 相 b) A—B+C: B—A+C; D—D-B 





对 寻 址 ， 也 可 能 包括 进来 。 其 三 指令 所 占用 的 字 节 数 
他 的 更 为 复杂 的 寻 址 方式 可 由 ”中 数据 所 占用 的 字 节 数 
这 些 简 单方 式 用 软件 来 个 成 。 “ERE oD 


同样 ， 这 个 设计 特征 简化 了 指 图 13-5 对 寄存 器 到 寄存 器 和 存储 器 到 存储 器 方法 的 两 个 比较 
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令 集 和 控制 器 。 

最 后 一 个 公共 特征 是 使 用 简单 的 指令 格式 ， 而 且 通 常 仅 使 用 一 种 或 少数 几 种 格式 。 指 令 长 
度 固定 并 且 在 字 边 界 上 对 齐 。 字 段位 置 ， 特 别 是 操作 码 字 段位 置 是 固定 的 。 这 个 设计 特点 有 多 个 
优点 。 对 于 固定 的 字段 ， 操 作 码 的 译 码 和 寄存 器 操作 数 的 访问 能 同时 出 现 。 简 化 了 格式 也 就 简化 
了 控制 器 。 因 为 以 字 长 单位 来 取 指 令 和 数据 ， 取 指令 也 就 被 优化 了 。 这 还 意味 着 ， 单 一 指令 不 会 
跨越 内 存 分 页 的 边界 。 

将 这 些 特征 综合 在 一 起 进行 评估 ， 就 能 确定 RISC 方法 的 潜在 优势 。 这 也 有 相当 数量 的 “ 间 
接 证 据 ”。 首 先 ， 能 开发 出 更 有 效 的 优化 编译 器 。 利 用 更 原始 的 指令 ， 对 于 无 循环 的 传送 功能 、 
有 效 地 重组 代码 、 最 大 化 寄存 器 的 使 用 等 ， 都 会 有 更 多 的 机 会 ， 甚 至 能 在 编译 时 求解 复杂 指令 的 
作用 。 例 如 ，S/390 的 传送 字符 (move characters, MVC) 指令 能 将 字符 串 由 一 个 位 置 传送 到 另 
一 位 置 上 。 每 当 执 行 该 指令 时 ,传送 将 取决 于 串 的 长 度 、 是 否 或 在 什么 方向 上 位 置 有 重 倒 ， 以 及 
排列 的 特征 是 什么 。 大 多 数 情况 下 ， 这些 在 编译 时 都 将 是 已 知 的 。 于 是 ， 编 译 器 能 为 这 种 操作 生 
成 一 个 优化 的 原始 指令 序列 。 

其 次 ， 前 面 已 指出 ， 是 编译 器 生成 的 大 多 数 指令 从 任何 方面 讲 都 是 相对 简单 的 指令 。 专 门 为 
这 些 指令 来 构造 控制 器 看 起 来 是 有 道理 的 ， 并 且 很 少 或 根本 不 使 用 微 代 码 来 执行 它们 ， 要 比 相 
应 的 CISC 快 得 多 。 

另外 ,与 指令 流水 的 使 用 有 关 。RISC 研究 者 们 发 现 ， 精 简 指 令 集 能 非常 有 效 地 应 用 指令 流 
水 技术 。 我 们 即将 更 详细 地 考察 这 一 点 。 

最 后 一 点 有 时 不 太 明 显 的 是 ，RISC 程序 应 能 更 好 地 响应 中 断 ， 因 为 中 断 是 相当 于 在 基本 操 
作 之 间 检 查 的 。 使 用 复杂 指令 的 结构 要 么 将 中 断 限定 在 指令 边界 上 ， 要 么 定义 专门 的 中 断 点 ， 并 
为 重启 动 一 条 指令 实现 一 种 结构 。 

精简 指令 集结 构 的 性 能 改善 情况 还 没有 完全 验证 。 已 有 几 个 这 方面 的 研究 ， 但 不 是 在 技术 
和 功能 方面 可 比 的 机 器 上 进行 的 。 而 且 ， 大 多 数 的 研究 还 没有 将 精简 指令 集 的 效应 与 大 寄存 器 
组 的 效应 分 开 。 然 而 ， 上 述 的 “间接 证 据 ” 还 是 有 启发 的 。 


13.4.3 CISC 5 RISC 特征 对 比 


在 对 RISC 机 器 的 最 初 热情 之 后 ， 人 们 越 来 越 认 识 到 : 

(1) RISC 设计 包括 某 些 CISC 特色 会 有 好 处 。 

(2) CISC 设计 包括 某 些 RISC 特色 也 会 有 益 。 

结果 是 ， 最 近 的 RISC wit, LA PowerPC 为 代表 ,不 再 是 “ 纯 ”RISC 了 。 而 最 近 的 CISC 设 
计 以 Pentium I 和 其 后 的 型 号 为 代表 ， 也 结合 了 某 些 RISC 特征 。 

[MASH 95] 给 出 了 一 个 令 人 感 兴趣 的 比较 ， 提 供 了 对 这 些 观 点 的 某 些 见识 (参见 表 13-7 ) 。 
此 表 列 出 了 几 种 处 理 器 ， 并 对 几 个 特征 进行 了 比较 。 作 为 这 个 比较 的 目的 ， 可 以 列 出 如 下 一 些 被 
认为 是 典型 的 RISC 特征 。 

(1) 单一 的 指令 长 度 。 

(2) 典型 的 指令 长 度 是 4 字 节 。 

(3) 较 少 的 寻 址 方式 ， 一 般 少 于 5 种 。 不 过 这 个 数目 难以 限定 。 表 中 未 计 人 寄存 器 和 立即 
数 的 方式 ， 而 带 有 不 同位 移 大 小 的 不 同 格式 却 分 别 予 以 统计 了 。 

(4) 无 间接 寻 址 。 间 接 寻 址 要 求 先 进行 一 次 存储 器 访问 来 得 到 操作 数 的 存储 器 地 址 。 

(5) 装载 /保存 操作 不 与 算术 操作 混在 一 起 〈 例 如 ， 由 存储 器 加 或 加 到 存储 器 ) 。 

(6) 每 条 指令 不 会 有 多 于 一 个 的 存储 器 操作 数 。 

(7) 对 装载 /保存 操作 ， 不 支持 数据 的 任意 对 齐 。 

(8) 对 指令 中 的 数据 地 址 ， 最 大 化 存储 管理 单元 (Memory Management Unit, MMU) 的 使 用 。 
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(9) 整数 寄存 器 指定 符 的 位 数 等 于 5 或 更 多 。 这 意味 着 ， 至 少 有 32 个 整数 寄存 器 能 被 显 式 
地 引用 。 

(10) 浮 点 寄存 器 指定 符 的 位 数 等 于 4 或 更 多 。 这 意味 着 ， 至 少 有 16 个 浮 点 寄存 器 也 能 被 显 
式 地 引用 。 

(1) ~ (3) 项 是 指令 译 码 复杂 性 的 标示 ; (4) ~ (8) 项 揭示 了 流水 线 技术 实现 的 难 易 ， 
特别 是 当 出 现 虚拟 存储 器 要 求 时 ; (9) 和 (10) 项 关系 到 使 用 编译 器 的 能 力 。 

表 13-7 中 的 前 8 个 处 理 器 是 明显 的 RISC 结构 ， 下 面 5 个 是 明显 的 CISC， 最 后 两 个 处 理 器 常 
被 看 作 是 RISC， 但 事实 上 它们 有 不 少 CISC 特征 。 


表 13-7 某 些 处 理 器 特征 













































































































nam [iit | aw ne ome peeps 
结合 算术 | 操作 数 最 大 数量 | 的 位 数 | 的 位 数 

AMD29000 1 | 4 1 无 无 1 8 30 
MIPS R2000 1 | 4 1 K J 否 1 5 4 
SPARC | 4 2 F K 否 1 5 4 
MC88000 4 3 无 无 1 否 1 5 4 
HP PA 4 10® K K 1 否 1 5 4 
IBM RT/PC 20 4 1 K 无 1 否 1 40 30 
IBM RS/6000 | 1 4 4 无 无 1 是 1 5 5 
Intel i860 1 4 4 无 无 1 否 1 5 4 
IBM 3090 4 8 22 无 @ 有 2 是 4 4 2 
Intel 80486 12 | 12 15 无 @ 有 2 是 4 3 3 
NSC 32016 21 21 23 有 有 2 是 4 3 3 
MC 68040 11 22 44 有 有 2 是 8 4 3 
VAX 56 56 22 有 有 6 是 24 4 | 0 
Clipper 49 80 90 无 无 1 0 2 40 | 30 
Intel 80960 20 go 90 J 5 1 是 2 = 5 30 

D 不 符合 该 特征 的 RISC。 

D 不 符合 该 特征 的 CISC, 


13.5 RISC 流水 线 技术 


13.5.1 使 用 规整 指令 的 流水 线 技术 

正如 12.4 节 所 讨论 过 的 ， 指 令 流水 线 技术 经 常 被 使 用 以 提高 性 能 。 让 我 们 再 在 RISC 结构 前 
提 下 考虑 这 个 问题 。 大 多 数 指令 是 寄存 器 到 寄存 器 的 ， 并 且 指 令 周 期 有 如 下 两 个 阶段 。 

e I; WES, 

e E: 执行 。 带 寄存 器 输入 和 输出 ， 完 成 一 个 ALU 操作 。 

对 于 装载 和 保存 操作 ， 需 要 三 个 阶段 。 

el; 取 指 令 。 

o E; 执行 (计算 存储 器 地 址 ) 。 

© D: 存储 (寄存 器 到 存储 器 或 存储 器 到 寄存 器 操作 ) 。 

图 13-6a 描述 了 不 使 用 流水 线 技术 的 一 个 指令 序列 的 操作 顺序 。 很 清楚 ， 这 个 过 程 有 所 浪 
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费 ， 即 使 一 个 很 简单 的 流水 线 技术 都 能 实质 性 地 改善 其 性 能 。 图 13-6b 表示 一 种 两 段 流 水 处 理 策 
略 ， 在 此 流水 线 处 理 方式 中 ， 两 个 不 同 指令 的 I1 和 刁 同 时 完成 。 这 种 策略 能 产生 串 行 策略 两 倍 的 
执行 速率 。 有 两 个 问题 妨碍 了 这 种 最 大 速率 的 达到 。 第 一 个 问题 是 ， 如 果 假 定 使 用 单 端口 存储 
器 ， 那 么 每 个 阶段 只 准 一 次 存储 器 访问 ， 这 就 要 求 在 某 些 指令 的 执行 中 插入 等 待 状态 。 第 二 个 问 
题 是 ,一 条 分 支 指 令 能 打 断 顺序 的 执行 流 。 为 了 以 尽量 少 的 电路 来 应 对 这 种 情况 ， 可 通过 编译 器 
或 汇编 器 将 NOOP 指令 插入 指令 流 中 。 

通过 允许 每 个 阶段 有 两 次 存储 器 访问 ， 能 进一步 改进 流水 线 的 性 能 。 这 产生 了 如 图 13-6c 所 
示 的 序列 。 现 在 ， 能 重合 执行 多 达 3 条 指令 ， 改 善 的 比例 最 大 可 达到 3。 同 样 ， 分 支 指令 使 加 速 
不 能 达到 最 大 允许 值 。 还 有 ， 注 意 数 据 相 关 性 也 有 影响 。 若 一 个 指令 需要 某 个 操作 数 ， 而 该 操作 
数 会 由 前 面 指令 所 更 新 ， 则 需要 一 个 延迟 。 同 样 ， 这 能 用 插入 NOOP 来 实现 。 

至 此 , 若 3 个 阶段 有 大 致 相等 的 期 间 ， 所 讨论 的 流水 线 就 能 很 好 地 工作 。 因 为 下 阶段 通常 涉 
及 一 个 ALU 操作 ， 它 可 能 会 更 长 一 些 。 这 种 情况 下 ， 我 们 能 将 它 分 成 两 个 子 阶 段 。 

e E: 寄存 器 组 读 。 

。 E,; ALU 操作 和 寄存 器 写 。 

由 于 指令 集 的 简单 性 和 规整 性 ， 设 计 3 个 或 4 个 阶段 的 流水 线 很 容易 。 图 13-6d 表示 使 用 4 
段 流 水 的 结果 。 多 达 4 条 指令 能 同时 进行 ， 最 大 可 能 的 加 速 比 是 4。 请 再 次 注意 ， 考 虑 到 因数 据 
和 分 支 的 延迟 而 插入 NOOP 指令 。 


Load rA—M Load rA—M 


Load rB—M Load rB—M 
Add rCorA+rB | | {| [| | [ME] | Add rC—rA+rB 
Store Me-rC Store MorC 


Branch X Branch X 


NOOP 









Load rA-M Load rA—M 










Load rB—M Load rB—M Pelem] TST 
NOOP NOOP | | PEE T 
Add rC—rA+B NOOP ETE 
Store MorC Add rC+rA+rB 
Branch X Store MorC | | | | | 贰 IE JE 
NOOP Branch X cee ee 
NOOP CCC 国 
NOOP HH 
c) 三 段 流水 线 的 时 序 d) 四 段 流水 线 的 时 序 


图 13-6 流水 线 的 效果 


13.5.2 ”流水 线 的 优化 


由 于 RISC， 指 令 集 的 简单 性 和 规整 性 ， 能 有 效 地 使 用 流水 线 策略 。 指 令 的 执行 时 间 没 有 多 
nie 并 且 可 以 对 流水 线 进 行 改 进 以 反映 这 些 变动 。 然 而 ， 我 们 已 看 到 ， 数 据 的 相关 性 和 分 支 

指令 会 降低 整体 的 执行 速率 。 

1. 延迟 分 支 

为 抵消 这 些 相关 性 带 来 的 性 能 损失 ， 开 发 人 员 采 用 了 代码 重组 (code reorganization) 技术 。 
提高 流水 线 效 率 的 一 种 方式 是 延迟 分 支 (delayed branch) 。 它 利用 了 分 支 指令 直到 下 面 一 条 指令 
之 后 才 产 生 影响 这 一 特点 ， 在 分 支 指令 之 后 安排 一 条 有 用 指令 来 替代 仅 为 延迟 的 空 操 作 。 分 支 
指令 之 后 的 指令 位 置 被 称 为 延迟 楷 (delay slot) 。 这 种 奇特 的 处 理 可 由 表 13-8 说 明 。 表 中 的 第 一 
列 ， 我 们 看 到 的 是 以 符号 指令 表述 的 正常 的 机 器 语言 程序 。 在 102 处 的 分 支 指令 执行 之 后 ， 将 要 
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执行 的 下 一 条 指令 在 105 处 。 为 规范 流水 线 ， 在 分 支 指令 之 后 插入 了 一 条 NOOP 指令 。 然 而 ， 若 
将 101 处 和 102 处 的 指令 进行 交换 ， 则 能 实现 性 能 的 提升 。 


表 13-8 正常 的 和 延迟 的 转移 






正常 分 支 延迟 分 支 优化 的 延迟 转移 




























100 LOAD X, rA LOAD X, rA LOAD X, rA 
101 ADD 1, rA ADD 1, rA JUMP 105 
102 JUMP 105 JUMP 106 ADD 1, rA 
103 ADD rA, rB NOOP ADD rA, rB 
104 SUB rC, rB ADD rA, rB SUB rC, rB 
STORE rA, Z SUB rC, rB STORE rA, Z 


STORE rA, Z 


图 13-7 表示 了 上 述 处 理 的 结果 。 图 13-7a 
展示 的 是 传统 流水 线 方案 ， 这 种 方案 已 在 第 
12 章 讨论 过 (参见 图 12-11 和 图 12-12) 。 在 
时 间 3 取 来 JUMP 指令 。 在 时 间 4, 此 JUMP ImLospx ra meo | | | 
指令 在 执行 ， 与 此 同时 指令 103 (ADD 指令 ) SADLA LO pege 一 
已 被 取 来 。 因 为 JUMP 的 出 现 , 修改 了 程序 计 103Apprm,r | | | [iE] | | 
数 器 ， 流 水 线 必须 清除 指令 103。 在 时 间 5， 105STORErA,Z a 
JUMP 的 目标 ， 即 指令 105 被 取 来 。 图 13-7b 
展示 的 是 典型 RISC 组 织 来 处 理 同样 的 流水 iooLospx a PT PE PD] | 1 [| 
线 ， 时 序 相同 。 只 不 过 由 于 插入 NOOP 指令 ， IO1ADD1 rA MW 

我 们 不 再 需要 清除 流水 线 的 专门 电路 了 ; 此 103 NOOP 
NOOP 简单 地 被 执行 ， 无 任何 影响 。 图 13-7c 106STORErA ZL | | | |EPETD | 
展示 的 是 延迟 分 支 方法 的 使 用 。 此 JUMP 指令 
现在 是 在 时 间 2 取 来 。 注 意 ，JUMP 指令 将 修 1ooLoOADX Ar 
改 程序 计数 器 ， 然 而 在 此 之 前 ，ADD IESE 101 JUMP 105 


102 ADD 1, rA 


在 时 间 3 取 来 了 。 于 是 在 时 间 4， ADD 指令 在 105 STORE rA, Z | | | [epee ioe} 
执行 ， 同 时 指令 105 被 取 来 。 这 样 ， 既 保持 c) 倒 换 指令 
程序 的 原 语义 ， 又 使 指令 总 执行 时 间 减 少 了 图 13.7 “延迟 分 支 的 使 用 
至 少 一 个 时 钟 周期 。 

对 于 无 条 件 跳 转 、 调 用 和 返回 ， 都 能 成 功 地 进行 这 种 交换 。 然 而 ， 不 能 盲目 地 将 其 施加 到 条 
件 分 支 指令 上 。 若 分 支 所 测试 的 条 件 会 被 前 面 这 条 指令 所 修改 ， 则 编译 器 应 避 开 这 种 交换 ， 而 插 
入 NOOP 指令 。 否 则 ， 编 译 器 能 在 分 支 指 令 之 后 插入 有 用 指令 。 以 Berkeley RISC 和 IBM 801 系统 
二 者 的 经 验 来 看 ， 大 多 数 的 条 件 分 支 指令 都 能 以 这 种 交换 方式 得 到 优化 ( [ PATT82a]， 
[ RADI83 ) 。 

2. 循环 展开 

男 一 种 提高 指令 并 行 性 的 编译 技术 是 循环 展开 (loop unrolling ) 
[BAC094]。 它 把 一 个 循环 的 循环 体 复制 若干 次 ， 其 次 数 被 称 为 展开 因子 
(az) ， 从 而 以 步 长 来 执行 循环 ， 而 不 是 步 长 1。 

循环 展开 是 通过 以 下 方式 来 提高 性 能 的 : 循环 展开 模拟 器 

© 降低 循环 开销 。 

© 通过 提升 流水 线性 能 来 提高 指令 并 行 性 。 

。 提高 寄存 器 、 数 据 高 速 缓存 或 页 表 快 速 缓存 (TLB) 的 局 部 性 。 
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图 13-8 用 例子 描述 了 这 3 种 性 能 改进 的 效果 。 循 环 开 销 降 低 为 原来 的 一 半 ， 因 为 在 循环 结 
尾 的 测试 和 分 支 之 前 ,一 次 执行 了 两 个 迭代 。 指 令 并 行 性 的 提高 是 因为 第 二 个 赋值 的 执行 可 以 
与 第 一 个 赋值 的 结果 保存 和 循环 变量 的 更 新 同时 进行 。 如 果 数 组 元 素 是 被 赋值 到 寄存 器 中 ， 寄 
存 器 的 局 部 性 可 获得 提升 ,因为 a [i] 和 a [i+1] 在 展开 后 的 循环 体 中 被 用 了 两 次 ， 把 每 次 循 
环 迭 代 中 的 内 存 装 载 次 数 从 3 次 降低 到 了 2 Wo 








a) 原来 的 循环 
ao i o2 2 os 
a[i] = afi] + afi-1] * a[i+1] 
afiti] = a[i+1} + afi] * afi+2] 
end do 
if (mod(n-2, 2) = i) then : 
Binet ss atnol) + aln el” alni, 
end if a. 
b) 循环 展开 两 次 
图 13-8 ”循环 展开 


最 后 应 当 指出 ， 指 令 流 水 线 的 设计 不 应 与 其 他 适用 于 系统 的 优化 技术 隔离 开 进 行 。 例 如 ， 
[BRAD91b] 指出 ， 流 水 的 指令 调度 策略 应 与 寄存 器 的 动态 分 配 一 起 考虑 ， 以 提高 效率 。 


13.6 MIPS R4000 


最 早 商品 化 的 一 种 RISC 芯片 组 是 MIPS Technology 公司 开发 的 。 此 系统 受到 一 个 在 斯 坦 福 研 
制 的 一 个 实验 系统 (也 叫 MIPS) 的 启发 [ HENN84 ] MIPS 系列 最 新 产品 号 是 R4000， 它 实质 上 
与 MIPS 设计 的 早先 产品 : R2000, R3000 具有 相同 的 体系 结构 和 指令 集 。 最 显著 的 不 同 是 R4000 
使 用 的 是 64 位 而 不 再 是 32 位 位 宽 ， 用 于 所 有 内 部 和 外 部 数据 路 径 和 地 址 、 寄 存 器 以 及 ALU。 

使 用 64 位 要 比 32 位 结构 有 几 个 好 处 。 它 允许 更 大 的 地 址 空间 : 大 到 能 使 操作 系统 将 比 太 字 
节 还 大 的 文件 直接 映射 到 虚拟 存储 器 ， 使 存 取 变 得 很 容易 。 现 在 普遍 使 用 的 1TB 或 更 大 的 磁盘 
驱动 器 ，32 位 机 器 的 4GB 地 址 空间 变 成 了 一 种 限制 。 另 外 ，64 位 能 允许 R4000 处 理 像 IEEE 双 
精度 浮 点 数 这 样 的 数据 ， 以 及 处 理 字符 串 数 据 时 能 一 次 处 理 多 达 8 个 的 字符 。 

R4000 处 理 器 芯片 分 成 两 个 部 分 ， 一 部 分 含有 CPU ， 另 一 部 分 含有 存储 管理 单元 。CPU 是 个 
很 简单 的 结构 ， 其 设计 思想 是 ， 尽 可 能 使 指令 执行 逻辑 简单 ， 留 出 空间 用 于 增强 性 能 的 逻辑 
(例如 ， 完 整 的 存储 管理 单元 ) 。 

处 理 器 支持 32 个 64 位 寄存 器 。 它 还 提供 多 达 128KB 的 高 速 cache， 一 半 用 于 指令 ， 一 半 用 
于 数据 。 这 种 相对 大 的 cache (IBM 3090 提供 128 ~ 256KB 的 cache) 使 系统 能 保持 更 多 的 程序 代 
码 和 数据 在 处 理 器 内 ， 从 而 减轻 了 主 存 总 线 的 负荷 ， 也 避免 了 对 大 寄存 器 组 及 其 配套 窗口 逻辑 
的 需求 。 


13.6.1 指令 


表 13-9 列 出 了 所 有 MIPS R 系列 处 理 器 的 基本 指令 集 。 所 有 指令 都 以 单一 32 位 字 格 式 来 纺 
码 。 所 有 数据 操作 都 是 寄存 器 到 寄存 器 ， 仅 纯 装 载 /保存 操作 有 存储 器 访问 。 

R4000 没 使 用 条 件 码 。 若 一 条 指令 产生 某 个 条 件 ， 其 相应 的 标志 存 于 一 个 通用 寄存 器 中 。 这 
就 避免 了 专门 用 于 处 理 条 件 码 的 逻辑 ， 因 为 它们 影响 流水 线 机 制 和 编译 器 对 指令 的 重 排序 。 流 
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水 线 已 经 实现 了 处 理 寄 存 器 值 相关 的 机 制 。 而 且 ， 映 射 到 寄存 器 组 的 条 件 在 分 配 与 再 使 用 上 ， 与 
存 于 寄存 器 其 他 值 都 一 样 可 由 编译 器 在 编译 时 间 优 化 。 


表 13-9 MIPS R 系列 指令 集 



























































































































































操作 操作 码 说 明 说 明 
LB 装载 字 节 逻辑 右 移 变量 
LBU 装载 无 符号 字 节 算术 右 移 变量 
LH 装载 半 字 乘 
LHU 装载 无 符号 半 字 无 符号 乘 
| LW 装载 字 除 
装载 / LWL 装载 左 字 无 符号 除 
保存 指令 LWR 装载 右 字 由 HI 送出 
SB | 保存 字 节 送 至 HI 
SH 保存 半 字 H LO 送出 
SW 保存 字 送 至 LO 
SWL 保存 左 字 跳 转 
SWR 保存 右 字 跳 转 并 链接 
ADDI 加 立即 数 跳 转 并 链接 
ADDIU 加 无 符号 立即 数 跳 转 并 链接 寄存 器 
SLTI 小 于 立即 数 置 位 相等 分 支 
算术 指令 “| STU PHEN 
(ALU 立即 数 ) | ANDI AND 立即 数 小 于 或 等 于 零 分 支 
ORI OR 立即 数 大 于 零 分 支 
XORI XOR 立即 数 小 于 零 分 支 
| lu | 装 入 上 部 立即 数 大 于 或 等 于 零 分 支 
ADD 加 小 于 零 分 支 并 链接 
ADDU 无 符号 加 大 于 或 等 于 零 分 支 并 链接 
SUB 减 LWCz 装载 字 到 协 处 理 器 
SUBU 无 符号 减 SWC, 保存 字 到 协 处 理 器 
算术 指令 SLT 小 于 置 位 MTC, 传送 到 协 处 理 器 
(3 操作 数 ， 
R 类 型 ) SLTU 无 符号 小 于 置 位 MFC, 由 协 处 理 器 传 出 
AND 与 协 处 理 器 指令 传送 控制 到 协 处 理 器 
OR 或 由 协 处 理 器 传 出 控制 
XOR Sea 协 处 理 器 操作 
NOR atk 协 处 理 器 > ores 
SLL 逻辑 左 移 BCzF 协 处 理 器 z 假 时 分 支 
SRL 逻辑 右 移 SYSCALL | 系统 调用 
移 位 指令 
SRA 算术 右 移 专门 指令 
BREAK 断 点 
SLLV 逻辑 左 移 变量 
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与 大 多 数 RISC 类 和 机 器 一 样 ，R4000 使 用 单一 的 32 位 指令 长 度 。 这 既 简化 了 取 指 令 和 译 
码 ， 又 简化 了 取 指 令 与 虚拟 存储 管理 单元 的 相互 作用 〈 即 指令 不 穿越 字 或 页 的 边界 ) 。 它 的 三 种 
指令 格式 〈 见 图 13-9) 共享 操作 码 和 寄存 器 引用 的 公共 格式 ， 简 化 了 指令 译 码 ， 可 在 编译 时 间 
以 简单 指令 的 合成 实现 更 复杂 指令 的 效果 。 









6 5 5 5 5 z 
RA WA) Opetion| re | n | ra | shit | Function | 
Operation 6 位 操作 码 | ie ee EET 
5 位 源 寄 存 器 指定 符 
n 5 位 源 / 目标 寄存 器 指定 符 


Immediate 16 位 立即 数 ， 转 移 或 地 址 偏 移 
Target 26 位 跳 转 目标 地 址 

rd 5 位 目标 寄存 器 指定 符 

Shift 5 位 移 位 总 量 

Fuction 6 位 ALU/shift 功能 指定 符 


图 13-9 MIPS 的 指令 格式 


只 有 最 简单 的 和 最 经 常 使 用 的 存储 器 寻 址 方式 是 以 硬件 实现 的 。 所 有 的 存储 器 引用 由 一 个 
32 位 寄存 器 和 一 个 16 位 的 对 此 寄存 器 基 址 的 偏 移 量 组 成 。 例 如 ,“ 装 载 字 ” 指 令 是 如 下 形式 : 

lw r2, 128 (r3) /* 装载 一 个 字 到 寄存 器 r2 ,该 字 的 地 址 是 寄存 器 *3 的 值 加 上 偏 移 量 128 

32 个 通用 寄存 器 的 任意 一 个 都 可 被 用 作 基 址 寄存 器 。 有 一 个 寄存 器 ， 上 和 ， 所 包含 的 值 总 是 0。 

编译 器 使 用 多 条 机 器 指令 的 合成 ,来 实现 普通 机 器 中 的 典型 寻 址 方式 。 下 面 给 出 了 一 个 来 
A [CHOW87] 的 例子 。 其 中 使 用 了 lui (load upper immediate， 装 载 上 部 立即 数 ) 指令 ， 这 条 指 
令 将 16 位 立即 数 装 入 寄存 器 高 半 部 ， 低 半 部 全 置 为 0。 考 虑 如 下 使 用 一 个 32 位 立即 数 作为 参数 
的 汇编 语言 指令 。 

lw x2, #imm(r4) /* 装载 一 个 字 到 寄存 器 r2 ,该 字 的 地 址 是 寄存 器 r4 的 值 加 上 32 位 的 立即 数 偏 移 量 #imm 

上 面 这 条 指令 将 被 编译 为 下 列 MIPS 指令 。 

lui r1, #imm-hi /* 装载 偏 移 量 #imm 的 高 16 位 #imm -hi 到 寄存 器 r1 


add r1, r1, r4 /* 把 寄存 器 rl PA#imm -hi 与 r4 的 值 相 加 ,结果 保存 回 寄 存 器 zl 
lw r2, #imm-lo(r1) /* #im -1o 是 偏 移 量 #imm 的 低 16 位 . 


13.6.2 指令 流水 线 


以 其 简化 的 指令 集结 构 ，MIPS 能 实现 很 有 效 的 流水 。 考 察 MIPS 流水 线 的 演变 情况 是 有 指导 
意义 的 ， 因 为 它 在 大 体 上 说 明了 RISC 流水 技术 的 改进 。 

最 初 实 验 RISC 系统 和 第 一 代 商 品 化 的 RISC 处 理 器 ， 实 现 了 大 约 每 系统 时 钟 周期 1 条 指令 的 
执行 速度 。 为 改善 这 种 性 能 ， 两 类 处 理 器 : 超标 量 和 超级 流水 线 体 系 结构 ， 已 发 展 到 能 每 时 钟 周 
期 执行 多 条 指令 。 从 本 质 上 讲 ， 超 标量 体系 结构 (super scalar architecture) 复制 每 个 流水 线段 ， 
使 得 流水 线 的 同一 阶段 可 以 同时 处 理 两 条 或 多 条 指令 。 超 级 流水 线 体 系 结构 (super pipelined ar- 
chitecture) 是 使 用 更 多 更 细致 的 流水 阶段 。 对 这 种 更 多 的 段 ， 更 多 的 指令 能 同时 处 于 流水 线 中 ， 
从 而 提高 并 行 度 。 

这 两 种 方法 都 有 限制 。 对 超标 量 流水 线 技术 ， 不 同 流水 线 中 指令 间 的 相关 性 会 减 慢 系统 。 还 
有 ， 为 协调 这 些 相关 性 也 要 求 一 些 辅助 逻辑 。 对 超级 流水 线 ， 指 令 由 一 个 阶段 传送 到 下 一 阶段 的 
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开销 也 会 增加 。 

第 14 章 将 专门 研究 超标 量 体 系 结构 。MIPS R4000 是 一 个 基于 RISC 的 超级 流水 线 体系 结构 
的 好 例子 。 

图 13-10a 显示 了 R3000 的 指令 流水 线 ， 指 令 在 流水 线 中 每 时 钟 周期 前 进 
一 步 。MIPS 编译 器 能 重 排序 指令 ， 在 70% ~ 90% 的 情况 下 能 填充 分 支 延迟 
模 。 所 有 指令 都 流 经 如 下 5 个 流水 阶段 : E] 

。 取 指令 

。 由 寄存 器 组 取 源 操作 数 pe 

ALU 运算 或 数据 操作 数 地 址 生成 

。 数 据 存储 器 访问 

。 写 回 到 寄存 器 组 


时 钟 周期 








IF =W 

RD = 读 取 操作 数 
MEM = 存储 器 访问 
WB = 写 回 


I-cache = 指令 cache 访问 

RF = 从 寄存 器 取 操 作 数 

D-cache = 数据 cache 访问 
地 址 翻译 


指令 
DA = 计算 数据 虚拟 地 址 
i ; j DTLB = 数据 地 址 翻译 
c) 用 并 行 的 TLB 和 cache 访问 优化 后 的 R3000 TC 二 数据 cache 标记 检查 





图 13-10 ”增强 R3000 流水 线 


正如 图 13-10a 所 显示 的 ， 这 里 不 仅 有 流水 线 的 并 行 性 ， 也 有 单一 指令 执行 内 的 并 行 性 。 
60ns 的 时 钟 周 期 分 成 两 个 30ns 的 相位 。 外 部 指令 和 数据 的 cache 存 取 操作 ， nr 
60ns， 主 要 的 内 部 操作 (OP, DA, IA) 也 需要 同样 的 时 间 。 指 令 译 码 是 一 个 较 简 单 操作 ， 只 要 
求 一 个 30ns 相位 ， 能 与 同一 指令 的 寄存 器 读 取 重 钱 。 一 个 分 支 指令 的 地 址 计算 亦 与 指令 译 码 和 
寄存 器 读 取 重合， 于 是 一 条 分 支 指 令 i 可 提供 指令 i+2 访问 ICACHE 的 地 址 。 类 似 地 ， 指 令 ;可 
装载 会 被 指令 i+1 的 操作 紧 接 着 使 用 的 操作 数 ， 与 此 同时 ， 一 个 ALU/shift 的 结果 能 直接 传递 给 
指令 i+1 而 没有 任何 延迟 。 这 种 指令 间 的 紧 耦 合 有 利于 高 效 流水 。 

每 个 时 钟 周期 分 成 的 两 个 相位 分 别 标 为 pl 和 电 。 每 个 相位 所 完成 的 功能 总 结 见 表 13-10。 

表 13-10 R3000 流水 段 
流水 段 相 位 功 能 
(EH TLB, 将 指令 的 虚拟 地 址 转换 成 物理 地 址 (在 分 支 转移 判定 之 后 ) 


ol 
IF 
$2 送出 物理 地 址 到 指令 cache 
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( 续 ) 

流水 段 相 位 功 能 
a | a 由 指令 cache 返回 一 个 指令 ， 比 较 标记 确认 所 取 指 令 有 效 性 

$2 译 码 指令 。 读 寄存 器 组 。 若 转移 ， 计 算 转移 目标 地 址 

$1 +42 若是 寄存 器 到 寄存 器 操作 ， 则 逻辑 或 算术 运算 完成 
$1 若是 一 个 分 支 ， 判 定 转移 是 否 发 生 

车 是 一 个 存储 器 访问 (装载 或 保存 ) ， 计 算数 据 的 虚拟 地 址 

$2 若是 一 个 存储 器 访问 ， 使 用 TLB 将 虚拟 地 址 转换 成 物理 地 址 
ea $l 若是 一 个 存储 器 访问 ， 送 物理 地 址 到 数据 cache 

$2 若是 一 个 存储 器 访问 ， 由 数据 cache 返回 数据 并 检查 标记 
WB ol 写 到 寄存 器 组 


R4000 比 R3000 又 有 几 点 技术 改进 。 使 用 更 先进 的 技术 ， 使 时 钟 周期 缩短 到 原来 的 一 半 ， 即 
30ns， 寄 存 器 的 存 取 时 间 也 缩短 到 原来 的 一 半 。 另 外 ， 芯 片 的 密度 更 大 ， 指 令 和 数据 cache 能 集 
成 到 芯片 上 。 在 最 后 考察 R4000 之 前 ， 让 我 们 先 考虑 R3000 应 如 何 修 改 以 使 用 R4000 技术 提高 
性 能 。 

图 13-10b 表示 第 一 步 。 注 意 此 图 中 的 周期 已 是 图 13-10a 中 周期 的 一 半 长 。 因 为 指令 和 数据 
cache 在 处 理 器 同一 芯片 上 ， 它 们 的 存 取 时 间 也 是 原来 的 一 半 长 ， 故 它们 的 流水 阶段 仍 占据 一 个 
时 钟 周 期 。 同 样 ， 因 为 寄存 器 组 存 取 的 加 速 ， 寄 存 器 读 和 写 仍 占据 时 钟 周期 的 一 半 。 

因为 cache 在 世 片 上， 虚拟 地 址 到 物理 地 址 的 转换 会 延迟 cache 访问 。 可 通过 虚拟 地 址 索引 
的 cache， 从 而 使 cache 存 取 和 地 址 转换 的 并 行 ， 以 缩短 延迟 。 图 13-10e 表示 以 这 种 改进 而 优化 
的 R3000 流水 线 。 因 为 事件 的 密集 ， 数 据 cache 标记 的 检查 放 在 cache 存 取 之 后 的 下 一 周期 来 
完成 。 

在 超级 流水 线 式 系统 中 ， 通 过 插入 流水 线 的 寄存 器 ， 每 个 流水 阶段 被 细 分 开 来 ， 使 得 原 有 硬 
件 在 每 周期 可 被 多 次 使 用 。 基 本 上 ， 超 流水 线 的 每 个 阶段 是 以 基本 时 钟 频率 的 几 倍 来 操作 ， 倍 数 
取决 于 超 流水 程度 。R4000 所 具 时钟 周 期 


有 的 速度 和 密度 ， 准 许 它 有 级 别 h 
[ter | 1c2 | RF |aru | atu | pci | pcz| rei | rc2 | we | 






为 2 的 超级 流水 线 。 图 13-11a 表 





示 使 用 这 种 超级 流水 线 的 优化 的 
R3000。 注 意 ， 它 基本 上 同 于 图 
13-10c 所 示 的 动态 结构 。 

为 了 进一步 改进 R4000, 在 
其 上 设计 了 一 个 更 大 的 专门 的 加 
法 器 ， 这 使 它 能 以 两 倍 的 速率 来 
执行 ALU 操作 。 另 外 的 改进 允许 
装载 和 保存 以 两 倍 的 速率 来 执行 。 
改进 后 的 流水 线 示 于 图 13-11b。 

R4000 有 8 个 流水 段 ， 意 味 着 
多 达 8 条 指令 能 同时 在 流水 线 中 。 


LICLLIC2 | rr [atu [atu] pei | pez | rer | Te? | we 
a) 改进 后 R3000 流水 线 的 超 流水 实现 
时 名 周期 





















1 2/04 2/04 CAKA > 
| iF | is | pF | Ex | pr | ps | tc We 
b) R4000 流水 线 


IF = 取 指 令 的 前 一 半 

IS = 取 指 令 的 后 一 半 

RF = 从 寄存 器 读 取 操作 数 
EX = 指令 执行 

IC = 指令 cache 


DC = 数据 cache 

DF = 数据 cache 前 一 半 
DS = 数据 cache 后 一 半 
TC = 标记 检查 


Al 13-11 R3000 的 理论 超级 流水 线 与 R4000 的 实际 超级 流水 线 


流水 以 每 时 钟 周期 两 段 的 速率 向 前 推进 。8 个 流水 段 如 下 所 述 。 
o 取 指 令 的 前 一 半 (instruction fetch first half); 虚拟 地 址 提交 给 指令 cache 和 转换 后 备 缓冲 


az (TLB). 
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取 指 令 的 后 一 半 (instruction fetch second half); 指令 cache 送出 指令 和 TLB 生成 物 
理 地 址 。 

寄存 器 组 (register file); 三 个 动作 并 行 出 现 。 

n 指令 被 译 码 ， 并 对 联 锁 条 件 进行 检查 〈 即 这 条 指令 取决 于 前 面 指令 的 执行 结果 ) 。 

m 进行 指令 cache 标记 (tag) 检查 。 

m 由 寄存 器 组 读 取 操作 数 。 

指令 执行 (instruction execute) : 可 能 出 现下 列 三 个 动作 之 一 。 

n 若 指令 是 寄存 器 到 寄存 器 的 操作 ，ALU 完成 此 算术 或 逻辑 操作 。 

n 若 指令 是 装载 /保存 指令 ， 计 算数 据 的 虚拟 地 址 。 

n 若 指令 是 分 支 指令 ， 计 算 转 移 目 标的 虚拟 地 址 并 检查 转移 条 件 。 

数据 cache 前 一 半 (data cache first half); 虚拟 地 址 提交 给 数据 cache 和 TLB。 

数据 cache 后 一 半 (data cache second half): 数据 cache 输出 数据 ，TLB 生成 物理 地 址 。 
标记 检查 (tag check); 为 装载 /保存 完成 cache 标记 检查 。 

写 回 (write back); 指令 结果 写 回 到 寄存 器 组 。 


13.7 SPARC 


SPARC (scalable processor architecture, ， 可 扩展 处 理 器 体系 结构 ) 是 指 一 种 由 Sun Microsysterns 
公司 定义 的 处 理 器 结构 。Sun 已 开发 了 自己 的 SPARC 实现 ， 而 且 也 许可 其 他 厂商 生产 SPARC 兼 
AHL. SPARC 结构 的 开发 从 Berkeley 的 RISC 机 器 得 到 了 许多 启发 ， 它 的 指令 集 和 寄存 器 组 织 也 
紧密 基于 Berkeley RISC 模型 之 上 。 


13.7.1 SPARC 寄存 器 组 


与 Berkeley RISC 一 样 ，SPARC 
也 使 用 了 寄存 器 窗口 。 每 个 窗口 由 
24 个 寄存 器 组 成 ; 总 的 窗口 数 是 2 
到 32 个 ， 实 际 数目 取决 于 具体 实 
现 。 图 13-12 展示 了 一 个 8 窗口 的 
实现 ， 总 共 使 用 了 136 个 物理 寄存 
器 。 正 如 13.2 节 讨 论 中 所 指出 的 ， 
这 是 一 个 合理 的 窗口 数 。 物 理 寄存 
器 0 到 7， 是 所 有 过 程 共享 的 全 局 
寄存 器 。 每 个 过 程 见 到 逻辑 寄存 器 
号 从 0 到 31。 逻 辑 寄存 器 24 到 31 
标记 为 输入 (ins)， 是 与 调用 过 程 
( 父 过 程 ) 共享 的 。 逻 辑 寄存 器 8 
到 15 标记 为 输出 (outs)， 是 与 被 
调用 过 程 (Foe) 共享 的 。 这 两 
hy SHA O MB, WHA 


逻辑 寄存 器 过 程 C 
过 程 B 





16 到 23 标记 为 局 部 的 ， 是 本 过 程 , i 

使 用 的 局 部 寄存 器 ， 既 不 与 其 他 过 「 a 本 三 
程 共享 ， 也 不 与 其 他 窗口 重 琶 。 再 | : 全 局 : 全 局 : 全 局 : 2R 
次 ， 如 同 13.1 节 讨 论 中 所 指出 的 ， 一 Re Ro RO 


8 个 寄存 器 用 于 参数 传递 ， 在 大 多 图 13-12 三 个 过 程 的 SPARC 寄存 器 窗口 布局 


328 .第 三 部 分 ”中央 处 理 器 


数 情况 下 ， 应 该 就 足够 了 ( 见 表 13-4)。 

图 13-13 是 寄存 器 重 琶 使 用 的 另 一 种 视图 。 调 用 过 程 将 要 传送 的 参数 放 入 它 的 outs 寄存 器 
中 ， 被 调用 过 程 将 这 同一 组 物理 寄存 器 看 
作 它 的 ins 寄存 器 。 处 理 器 维护 一 个 指向 当 
前 执行 过 程 窗口 的 指针 ， 称 为 当前 窗口 指 
£f (current window pointer, CWP), CWP 
位 于 处 理 器 状态 寄存 器 (PSR) 中 ， 此 寄 
存 器 中 还 有 一 个 窗口 无 效 屏蔽 WIM (win- 
dow invalid mask) ， 它 指示 哪个 窗口 无 效 。 

使 用 SPARC 的 寄存 器 结构 ， 过 程 调用 
通常 没 必 要 保存 和 恢复 寄存 器 。 因 为 编译 
器 只 需 关 心 以 有 效 方式 为 过 程 分 配 局 部 寄 
存 器 ， 而 无 需 关 心 过 程 间 的 寄存 器 分 配 ， 
故 编译 器 大 大 简化 了 。 


CWP 


13.7.2 ”指令 集 


# 13-11 列 出 了 SPARC 结构 的 指令 集 。 
大 多 数 指 令 只 使 用 寄存 器 操作 数 。 寄 存 器 
到 寄存 器 指令 有 三 个 操作 数 ， 并 能 表示 成 : 图 13-13 SPARC 中 8 个 寄存 器 窗口 构成 了 一 个 环形 栈 

R,<R,, op 52 

Hip, R 和 Rs 是 寄存 器 ，S2 或 者 是 寄存 器 ， 或 者 是 一 个 13 位 立即 数 。 寄 存 器 零 (R) 已 
被 硬 布线 为 0 值 。 这 种 指令 形式 非常 适合 于 具有 高 比例 的 局 部 标量 和 常数 的 程序 。 

可 由 ALU 实现 操作 的 指令 分 成 如 下 几 组 : 

。 整数 加 法 〈 带 或 不 带 进位 ) 。 

。 整数 减法 〈 带 或 不 带 借 位 ) o 

e 按 位 的 布尔 运算 AND, OR, XOR 及 其 取 反 操作 。 

。 逻辑 左 移 、 逻 辑 右 移 和 算术 右 移 。 

除 移 位 指令 之 外 ， 所 有 这 些 指令 都 可 选择 设置 4 个 条 件 代 码 : 零 (ZERO), fi (NEGA- 
TIVE), Föt (OVERFLOW), Hit (CARRY) 。 带 符号 整数 以 32 位 的 2 的 补 码 形式 表示 。 

只 有 简单 的 装载 和 保存 指令 访问 存储 器 ， 并 区 分 对 字 (32 位 ) 、 双 字 、 半 字 、 字 节 的 装载 或 
保存 。 半 字 或 字 节 的 装载 指令 还 可 按 有 符号 数 和 无 符号 数 区 别 对 待 。 对 有 符号 数 ， 符 号 位 被 扩展 
填充 32 位 目的 寄存 器 的 高 位 。 对 无 符号 数 ，32 位 目的 寄存 器 的 高 位 将 被 0 填充 。 

除 寄存 器 外 ， 唯 一 可 用 的 寻 址 方式 是 “ 偏 址 ”方式 ， 即 操作 数 的 有 效 地 址 (EA) 是 基 址 和 
偏 移 量 之 和 。 基 址 来 自 寄存 器 ， 偏 移 量 是 立即 数 ， 也 可 能 来 自 于 寄存 器 ， 即 可 表示 为 : 

EA = (Rs。) +S2 





或 

EA =(R,,) + (Ry) 

为 完成 装载 或 保存 ， 指 令 周 期 需 添加 一 个 额外 相位 ， 在 第 2 步 使 用 ALU 完成 存储 器 地 址 计 
算 ， 在 第 3 步 装载 或 保存 。 这 种 单一 寻 址 方式 非常 灵活 ， 能 综合 形成 其 他 寻 址 方式 ， 如 表 13-12 
所 示 。 

将 SPARC 的 寻 址 能 力 与 MIPS 的 寻 址 能 力 进 行 对 比 是 有 益 的 。MIPS 使 用 16 位 偏 移 ，SPARC 
使 用 13 位 偏 移 。 另 外 ，MIPS 不 准许 一 个 地 址 由 两 个 寄存 器 的 内 容 构成 ， 而 SPARC 准许 。 
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表 13-11 SPARC 指令 集 

























































































































































指令 助 记 符 说 明 说 明 
LDSB 装载 有 符号 字 节 加 
LDSH 装载 有 符号 半 字 加 ,设置 条 件 码 
LDUB 装载 无 符号 字 节 带 进位 加 
LDUH | 装载 无 符号 半 字 带 进位 加 ， 设 置 条 件 码 
装载 /保存 | D 装载 字 ia 
指令 LDD 装载 双 字 减 ， 设 置 条 件 码 
STB 保存 字 节 SUBX 带 借 位 减 
STH 保存 半 字 SUBXCC 带 借 位 减 ， 设 置 条 件 码 
STD 保存 字 多 步 ， 设 置 条 件 码 
SLL 逻辑 左 移 FBCC 依 浮 点 条 件 转 移 
移 位 指令 mi 逻辑 右 移 CBCC 依 协 处 理 器 条 件 转 移 
算术 右 移 CALL 调用 过 程 
AND PEE JMPL 跳 转 并 链接 
转移 指令 
ANDCC AND, 设置 条 件 码 依 条 件 转 移 
ANDN | NAND SAVE 前 移 寄 存 器 窗口 
ANDNCC NAND, 设置 条 件 码 RESTORE 后 移 寄 存 器 窗口 
OR RETT | 由 自 陷 返 回 
布尔 运算 OR， 设 置 条 件 码 | SETHI 设置 高 22 位 
指令 
UNLMP 未 实现 的 指令 (AA) 
NOR， 设 置 条 件 码 - 
XOR 其 他 指令 RD 读 专 门 寄存 器 
XOR， 设 置 条 件 码 WR 写 专 门 寄存 器 
IFLUSH 指令 cache 清空 
异 或 非 ， 设 置 条 件 码 
表 13-12 以 SPARC 寻 址 方式 综合 成 其 他 寻 址 方式 
指令 类 型 寻 址 方式 算法 SPARC 对 应 表示 
寄存 器 到 寄存 器 立即 寻 址 操作 数 =A S2 
装载 ， 保 存 直接 寻 址 EA=A Ry +82 
寄存 器 到 寄存 器 寄存 器 寻 址 EA=R Ry, Rg 
装载 ， 保 存 寄存 器 间接 寻 址 EA= (R) Rg, +0 
装载 ， 保 存 偏 移 寻 址 EA= (R) +A Rs + S2 


13.7.3 ”指令 格式 


与 MIPS R4000 一 样 ，SPARC 使 用 了 一 组 简单 的 32 位 指令 格式 〈 见 图 13-14) 。 所 有 指令 都 
以 2 位 操作 码 开始 ， 某 些 指令 在 指令 格式 中 的 其 他 位 置 还 有 操作 码 。 对 于 Call 指令 ,一 个 30 位 
的 立即 数 用 右 方 加 两 个 零 位 的 方法 扩展 成 32 位 ， 构 成 以 2 的 补 码 格式 表示 的 PC 相对 地 址 。 指 令 
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对 齐 在 32 位 边界 上 ， 故 这 种 地 址 形式 ”满足 寻 址 需要 了 。 

分 支 指令 包括 一 个 4 位 条 件 字段 ， 它 对 应 于 4 个 标准 条 件 码 ， 因 此 可 以 测试 这 些 条 件 的 任何 
组 合 。22 位 PC 相对 地 址 以 右 方 加 两 位 0 而 扩展 ， 形 成 24 位 的 2 的 补 码 形式 的 相对 地 址 。 分 支 
指令 的 一 个 不 寻常 特点 是 它 的 注销 (Annul) 位 。 若 此 注销 位 未 置 位 时 ， 则 分 支 指令 的 直接 后 继 
指令 总 是 被 执行 ， 不 论 是 否 发 生 转 移 。 这 是 在 许多 RISC 机 器 中 都 可 以 找到 的 典型 延迟 分 支 法 策 
略 ， 已 在 13.5 节 介 绍 过 了 〈 见 图 13-7) 。 但 是 ， 若 注销 位 置 位 时 ， 则 仅 当 发 生 转 移 时 才 执 行 此 分 
支 指令 之 后 的 指令 。 当 转移 实际 未 发 生 时 ， 处 理 器 会 注销 已 经 取 到 流水 线 中 的 延迟 槽 指令 。 这 个 
注销 位 很 有 用 ， 因 为 它 使 编译 器 填充 条 件 分 支 指令 之 后 的 延迟 模 变 得 很 容易 。 转 移 目标 指令 总 
放 在 延迟 槽 内 ， 因 为 如 果 不 发 生 转 移 ， 能 自动 注销 此 指令 。 采 用 这 种 办 法 的 理由 是 ， 条 件 分 支 多 
半 是 要 发 生 转移 的 。 

SETHI 指令 是 一 条 用 于 装载 或 保存 32 位 值 的 特殊 指令 ， 这 对 于 装载 或 保存 地 址 或 大 的 常数 
是 一 个 很 有 用 的 特征 。SETHI 指令 以 它 的 22 位 立即 数 设置 寄存 器 的 高 22 位 ， 以 0 填充 寄存 器 的 
低 10 位 。 一 条 普通 指令 格式 的 指令 能 指定 多 达 13 位 的 立即 数 ， 这 样 的 指令 能 用 于 填 注 寄存 器 剩 
余 的 低 10 位 。 装 载 或 保存 指令 也 可 以 用 来 实现 直接 寻 址 方式 。 假 设 要 从 内 存 位 置 K 取 一 个 值 装 
和 寄存器， 我 们 可 以 使 用 如 下 SPRAC 指令 : 


sethi % hi(k), % r8 /* 将 位 置 X 的 高 22 位 地 址 装 人 寄存 器 r8 
ld[% r8 +% lo(k)], % r8 /* DLE K 的 内 容 装 入 寄存 器 r8 


宏 %hi 和 % lo 用 于 定义 由 位 置 的 
相应 地 址 位 组 成 的 立即 数 。SETHI 的 
这 种 使 用 类 似 于 MIPS 上 LUI 指令 的 
使 用 。 

浮 点 指令 格式 用 于 浮 点 运算 ， 它 

5 个 一 个 2 5 3 22 
最后， 包括 装载 保存. 算术 各。 ine ODO eee 
逻辑 运算 的 所 有 其 他 指令 ， 都 使 用 图 2 5 6 5 9 5 
13-14 最 下 方 所 列 的 两 种 普通 指令 格式 PRRs [o| Dest | op3 [srei | FPop | src2 | 
之 一 。 一 种 格式 使 用 两 个 源 寄 存 器 和 CS 
一 个 目的 寄存 器 ; 另 一 种 使 用 一 个 源 
寄存 器 ， 一 个 13 位 立即 数 和 一 个 目的 。 普通 指令 格式 
寄存 器 。 





分 支 指令 格式 


21 4 3 22 










13.8 RISC 5 CISC 的 争论 图 13-14 SPARC 指令 格式 


多 年 来 ， 计 算 机 组 织 和 体系 结构 朝 着 增加 CPU 复杂 性 方向 发 展 : 更 多 的 指令 ， 更 多 的 寻 址 
方式 ， 更 多 专用 寄存 器 等 。RISC 结构 表示 了 与 这 种 趋势 背后 根本 原理 的 彻底 决裂 。 显 然 ，RISC 
系统 的 出 现 和 赞美 RISC HEM MRM RH, WETS CISC 体系 结构 设计 人 员 的 反对 。 

在 评价 RISC 方法 功 过 方面 所 做 的 工作 可 分 成 两 类 。 

。 定量 化 (quantitative): 试图 比较 采用 了 可 对 比 技术 的 RISC 和 CISC 机 器 上 的 程序 大 小 及 

程序 执行 速度 。 

。 定性 化 (qualitative) : 考察 诸如 高 级 语言 支持 和 VLSI 资源 的 优化 使 用 等 设计 出 发 点 。 

[PATT82b，HEAT84，PATT84] 这 些 在 RISC 系统 上 所 做 的 研究 已 完成 定量 评价 的 大 量 工 
作 。 正 如 已 看 到 的 ， 他 们 原则 上 赞同 RISC 方法 。 其 他 一 些 人 考察 了 设计 问题 ， 对 RISC 路 线 还 是 


O 意 为 后 补 两 位 0， 即 4 字 节 边界 。 一 一 译 者 注 
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抱 着 一 些 怀疑 [COLW85a，FLYN87，DAVI87 ]。 在 试图 进行 这 类 比较 时 ， 存 在 几 个 问题 
[ SERL86 | 。 

© 没有 这 样 成 对 的 RISC 和 CISC 机 器 ， 它 们 在 生存 期 、 技 术 水 平 、 成 本 、 门 电路 的 复杂 性 、 
编译 器 的 精致 性 、 操 作 系统 支持 等 各 方面 都 是 可 比较 的 。 

。 不 存在 一 组 正式 的 测试 程序 。 实 际 性 能 总 是 随 所 用 测试 程序 不 同 而 改变 。 

。 难于 将 硬件 效应 与 编译 器 编写 技巧 的 效应 分 开 。 

o 对 RISC 的 分 析 比 较 ， 大 都 是 在 模型 机 上 完成 的 而 不 是 在 商品 机 上 。 更 何况 作为 RISC 广 
告 的 大 多 数 商 品 机 又 都 具有 RISC 和 CISC 的 混合 特征 。 于 是 ， 与 标榜 为 纯 的 CISC 商品 机 (例如 
VAX、Pentium) 进行 公平 比较 是 困难 的 。 

定性 评估 几乎 都 是 通过 定义 来 完成 的 ， 因 而 是 主观 观点 。 几 个 研究 者 已 将 他 们 的 注意 力 转 
到 这 种 评估 [COI，W85a，wALL85 ] 上 ， 但 结论 仍 存在 模糊 性 并 遭 到 批驳 [PATT85b] ， 当 然 ， 
也 有 反 批 驳 [COLW85b ] 。 

近 几 年 来 ，RISC 与 CISC 的 争论 在 很 大 程度 上 已 平息 下 来 。 这 是 因为 已 出 现 技术 的 逐渐 交 
融 。 随 着 世 片 密度 和 硬件 速度 的 提高 ，RISC 系统 已 变 得 更 复杂 。 与 此 同时 ， 在 达到 极限 性 能 的 
努力 中 ，CISC 设计 已 关注 通常 是 与 RISC 相 联 系 的 一 些 特 点 ， 如 增加 通用 寄存 器 数量 和 更 加 强调 
指令 流水 线 设 计 等 。 


13.9 ”推荐 的 读物 


两 篇 经 典 的 RISC 综述 文章 是 [PATT85a] 和 [HENN84] ， 另 一 评论 文章 是 [STAL88], [ RADI83] 和 
[PATT82a] 提供 了 关于 RISC 两 个 开拓 性 工作 的 说 明 。 [KANE92] 详细 介绍 了 商品 化 的 MIPS 机 器 。 
[ MIRA92] 提供 了 很 好 的 MIPS R4000 综述 。[ BASH91] 讨论 了 由 R3000 流水 线 到 R4000 超 流水 线 的 演变 。 
[DEWA90] 中 详细 介绍 了 SPARC, 


BASH91 Bashteen, A.; Lui, L; and Mullan, J. “A Superpipeline Approach to the MIPS 
Architecture.” Proceedings, COMPCON Spring ’91, February 1991. 


DEWA90 Dewar, R., and Smosna, M. Me A Programmer's View. New 
York: McGraw-Hill, 1990. 人 


HENN84 Hennessy,J.“VLSI Processor Architecture. » IEEE Tranas on Computers, 
December 1984. 


KANE92 Kane, G., and Heinrich, J. MIPS RISC Architecture. Englewood Cliffs, NJ: 
Prentice Hall, 1992. 


MIRA92 Mirapuri, S.; Woodacre, M.; and Vasseghi, N. . “The MIPS R4000 Processor.” 
IEEE Micro, April 1992. - 


PATT82a Patterson, D., and Sequin, C. “A VLSI RISC” Computer, September 1982. 


PATT85a Patterson, D. “Reduced Instruction Set Computers.” Communications of the 
ACM. January 1985. 


RADI83 Radin, G.“The 801 Minicomputer: "IBM Joumal of Research and Development, 
May 1983. 


STAL88 Stallings, W. “Reduced Instruction Set Computer Architecture.” Proceedings of 
the IEEE, January 1988. 





13.10 ”关键 词 、 思 考题 和 习题 


关键 词 
complex instruction set computer (CISC); 复杂 指令 集 delayed load; 延迟 装载 
计算 机 high-level language: 高 级 语言 


delayed branch: 延迟 分 支 reduced instruction set computer (RISC): 精简 指令 集 
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计算 机 register window: 寄存 器 窗口 
register file: 寄存 器 组 SPARC: 可 扩展 处 理 器 体系 结构 
思考 题 

13.1 RISC 组 织 的 典型 特征 是 什么 ? 

13.2 ”简要 说 明 RISC 机 器 上 用 于 减少 寄存 器 -存储 器 操作 的 两 种 基本 方法 。 


13.3 
13.4 
13.5 


习题 
13.1 


13.2 
13.3 


EMARE ARRE REN EY EASE EL Pa PINK 
RISC 指令 集体 系 结构 的 典型 特征 是 什么 ? 
什么 是 延迟 分 支 ? 


考虑 图 4 -21 中 的 调用 -返回 样式 ， 以 如 下 窗口 尺寸 将 出 现 多 少 上 洲 和 下 洲 (它们 每 个 都 引起 一 个 寄 
存 器 保存 /恢复 ) : 

(a) 5? (b) 8? (c) 16? 

在 讨论 图 13-2 时 曾 说 过 ， 仅 窗口 的 前 两 部 分 需要 保存 或 恢复 。 为 什么 没 必要 保存 临时 寄存 器 ? 

我 们 希望 确定 一 给 定 程序 的 执行 时 间 ， 它 使 用 13.5 节 讨论 过 的 各 种 流水 策略 。 令 : 

N= 已 执行 指令 数 


卫 = 存 储 器 访问 次 数 


13.4 
13.5 


13.6 


J = 转移 指令 数 
对 于 简单 的 顺序 策略 ， 见 图 13-6a， 执 行 时 间 是 2V +D 个 阶段 。 求 出 两 段 、 三 段 和 四 段 流水 的 执行 时 
间 公 式 。 
重新 组 织 图 13-6d 中 的 代码 顺序 以 减少 NOOP 的 数目 。 
考虑 高 级 语言 的 如 下 代码 片段 : 
for I in1...100 loop 
S+S + Q(I).VAL 
end loop; 
假定 Q 是 一 个 32 字 节 记录 的 数组 ，VAL 字段 是 每 个 记录 的 前 4 个 字 节 。 使 用 x86 代码 ， 能 将 这 个 程 
序 段 编译 成 : 


MOV ECX, 1 ; 使 用 寄存 器 ECX ,初始 值 为 1 
LP: IMUL EAX,ECX, 32 ; 得 到 位 移 量 在 EAX 中 

MOV EBX,Q [EAX] ; 将 VAL FBA EBX 

ADD S, EBX ;加 到 s 中 

INC ECX ;递增 I 

CMP ECX,101 ;与 101 比较 

JNE LP ;循环 直到 I =100 


这 个 程序 使 用 了 IMUL 指令 ， 它 将 第 二 个 操作 数 乘 以 第 三 个 操作 数 中 的 立即 值 ， 乘 积 放 人 第 一 个 操作 
数 中 (见习 题 10.13 ) 。 一 个 RISC 拥护 者 证 明 ， 一 个 灵巧 的 编译 器 能 取消 像 IMUL 这 样 的 不 必要 的 复 
杂 指 令 。 通 过 重 写 一 个 不 使 用 IMUL 指令 的 x86 程序 来 提供 此 证 明 。 


考虑 如 下 循环 : 
S:=0': 
for K: =1 to 100 do 
S:=S-K; 
将 这 些 语句 翻译 成 通常 的 汇编 语言 ,直截了当 的 做 法 可 以 是 这 样 : 
LD R1,0 ; S 值 保持 在 R1 中 
LD R2,1 ;和 值 保持 在 R2 中 
LP SUB R1, R1, R2 ;S:=S-K 
BEQ R2, 100, EXIT ; #K=100, MK 
ADD R2, R2,1 ; BM, 递增 
JMP LP ; 回 到 循环 开始 处 


RISC 机 器 的 编译 器 将 在 这 段 代 码 中 引入 延迟 槽 ， 于 是 处 理 器 能 使 用 延迟 分 支 机 制 。JMP 指令 好 处 理 ， 


13:7 


13.8 


13.9 


第 13 章 精简 指令 集 计 算 机 * 333 


因 这 条 指令 后 总 是 跟着 一 条 SUB 指令 ， 因 此 我 们 可 以 简单 地 将 SUB 指令 的 副本 放 入 IMP 之 后 的 延迟 
Wo BEQ 指令 处 理 就 有 些 困难 ， 我 们 不 能 让 代码 就 这 样 运 行 ， 否则 ADD 指令 会 执行 太 多 次 。 于 是 ， 
需要 NOP 指令 。 请 给 出 使 用 延迟 分 支 法 的 最 终 代码 。 

为 提高 流水 效率 ，RISC 机 器 可 将 符号 寄存 器 映射 到 实际 寄存 器 ， 并 重 排 指令 顺序 。 这 就 提出 了 一 个 
有 趣 问 题 : 这 两 个 操作 有 没有 先后 次 序 。 考 虑 如 下 程序 段 : 


LD SR1,A ; A 装 入 符号 寄存 器 1 

LD SR2,B ; B 装 和 人 符号 寄存 器 2 

ADD SR3, SR1, SR2 ; SR1 、SR2 两 内 容 相 加 ,以 及 存 人 符号 寄存 器 3 
LD SR4, C 

LD SR5, D 

ADD SR6, SR4, SR5 


(a) 先进 行 寄 存 器 映射 ， 后 进行 指令 重 排序 ， 使 用 了 多 少 机 器 寄存 器 ? 有 流水 性 能 的 任何 改进 吗 ? 

(b) 仍 以 原 程 序 开 始 ， 现 在 是 先 做 指令 重 排序 ， 后 做 寄存 器 映射 ,使 用 了 多 少 机 器 寄存 器 ? 有 流水 
性 能 的 任何 改进 吗 ? 

请 在 表 13-7 中 加 入 这 两 项 : 

(a) Pentium II (b) ARM 

多 数 情况 下 ， 未 列 为 MIPS 指令 集 一 部 分 的 普通 机 器 指令 能 以 单个 MIPS 指令 来 合成 。 请 表示 出 如 下 的 

各 MIPS 指令 序列 。 

(a) 寄存 器 到 寄存 器 的 传送 (b) 递增 ,递减 

(c) 求 补 (d) 求 负 (e) 清除 


13.10 一 个 SPARC 实现 中 及 个 寄存 器 窗口 ， 它 的 物理 寄存 器 数目 NN 是 多 少 ? 


13.11 


13.12 


SPARC 缺乏 几 条 CISC 机 器 上 普遍 有 的 指令 ， 其 中 某 些 指 令 可 使 用 寄存 器 RO ( 它 的 值 总 为 0) 或 常 
数 操作 数 来 模拟 而 成 。 这 些 被 模拟 的 指令 称 为 伪 指令 (pseudo instruction) ， 并 被 SPARC 编译 器 所 承 
认 。 请 表示 如 何 模拟 出 如 下 伪 指令 ， 每 个 只 使 用 单一 SPARC 指令 。 所 有 这 些 伪 指令 中 ，src 和 dst 分 
别 指 的 是 源 寄存 器 和 目的 寄存 器 (提示: 保存 到 RO 对 RO 无 影响 ) 。 

(a) MOV src, dst (b) COMPARE srcl, src2 (c) TEST srcl 


(d) NOT dst (e) NEG dst (£) INC dst 
(g) DEC dst (h) CLR dst (i) NOP 
考虑 如 下 程序 段 : 
if K>10 
L=K+1 
else 
L=K-l1: 
这 些 语句 翻译 后 ， 能 以 如 下 形式 进入 SPARC 编译 器 : 
sethi % hi (K), % r8 ; 将 位 置 X 的 高 22 位 地 址 装 人 寄存 器 r8 
ld [% r8 + % lo(K)], % r8 ; 将 位 置 k 的 内 容 装 入 寄存 器 r8 
cmp %r8,10 ; r8 的 内 容 与 10 相 比 较 
ble L1 ; 若 (r8)<10 则 转移 
nop 
sethi % hi(K), % r9 
ld [$8 r9 + BLO(K), 19] ;将 位 置 KX 的 内 容 装 人 寄存 器 ro 
inc %r9 ;给 (r9) 加 1 
sethi % hi (L), % r10 
st % T9, [8 r10 + % Lo(L)] ; FF (x9) Be BL 
b L2 
nop 


Ll: sethi % hi (K), $ r11 
ld [% r11 + %lo(K)],% r12 ;将 位 置 X 的 内 容 装 入 存 器 r12 


dec $%r12 ; 由 (zl12) 减 1 
sethi % hi (L), % r13 
st % rl2, [% r13 + % lo(L)] ; 存 (rL2) 到 位 置 工 


在 每 个 分 支 指令 后 都 有 一 个 nop 指令 ， 因 此 这 些 代码 准许 以 延迟 分 支 法 来 运行 。 
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(a) 上 面 汇编 指令 代码 经 编译 器 后 就 可 以 在 SPARC 机 器 上 运行 ， 无 需 再 进行 其 他 操作 。 但 优化 的 编 
译 器 对 高 级 语言 程序 能 完成 两 次 翻译 ， 先 翻译 成 汇编 语言 ， 然 后 对 它 进行 优化 处 理 。 请 注意 ， 
上 述 汇编 语言 程序 中 两 个 装载 指令 是 不 必要 的 ， 并且 如 果 保 存 指令 挪移 到 程序 中 另 一 位 置 ， 则 
两 次 保存 可 合并 成 一 次 。 请 写 出 完成 这 些 修 改 之 后 的 程序 。 

(b) 如 果 编 译 器 现在 能 够 完成 针对 SPARC 的 特有 优化 ， 请 考虑 使 用 设置 注销 位 的 ble 指令 (表示 成 
ble, a LI1) ， 并 将 其 他 有 用 的 指令 移 人 它 之 后 的 延迟 糟 内 ， 而 取代 nop 指令 。 写 出 这 一 改动 之 后 
的 程序 。 

(c) 现在 还 有 两 条 不 必要 的 指令 ， 请 将 它们 移 走 ， 写 出 最 终 优 化 的 汇编 语言 程序 。 


| 第 14 章 


Computer Organization and Architecture: Designing for Performance, 8E 


指令 级 并 行 性 和 超标 量 处 理 需 


本 章 要 点 


e 超标 量 处 理 器 是 一 种 使 用 多 条 相互 独立 的 指令 流水 线 的 处 理 器 。 每 条 流水 线 由 多 个 段 
(stage) 组 成 ， 因 此 每 条 流水 线 能 同时 处 理 多 条 指令 。 多 流水 线 引 入 了 新 一 级 并 行 性 ， 多 
许 同 时 处 理 多 个 指令 流 。 超 标量 处 理 器 利用 了 所 谓 的 指令 级 并 行 性 (instruction-level par- 
allelism) ， 指 令 级 并 行 性 指 的 是 程序 中 的 指令 可 以 并 行 执 行 。 
超标 量 处 理 器 一 次 取 多 条 指令 ， 然 后 试图 找 出 几 条 彼此 不 相关 因而 能 够 并 行 执 行 的 指令 。 
如 果 一 条 指令 的 输入 取决 于 前 面 指令 的 输出 ， 则 这 条 指令 不 能 同时 ， 更 不 能 先 于 前 面 指 
令 完 成 执行 。 一 旦 这 种 相关 性 被 确认 ， 处 理 器 可 以 以 不 同 于 原来 代码 的 顺序 发 射 和 完成 
指令 。 
通过 使 用 更 多 的 寄存 器 ， 或 对 原 代码 中 的 寄存 器 引用 换 名 ， 处 理 器 可 取消 某 些 不 必要 的 
相关 性 。 
纯 RISC 处 理 器 经 常 使 用 延迟 分 支 来 最 大 限度 地 利用 指令 流水 线 ， 然 而 ， 这 种 方法 不 太 适 
用 于 超标 量 处 理 器 ， 大 多 数 超标 量 机 器 使 用 了 传统 的 分 支 预测 法 来 提高 流水 线 效率 。 

超标 量 实 现 的 处 理 器 结构 是 指 ， 在 这 样 的 结构 中 ， 包 括 整 数 和 浮 点 运算 、 装 载 、 保 存 以 及 条 
件 分 支 之 类 的 普通 指令 ， 能 同时 启动 并 独立 执行 。 这 种 实现 引出 了 涉及 指令 流水 线 的 几 个 复杂 
设计 问题 。 

超标 量 设计 紧 跟 RISC 体系 结构 的 脚步 。 虽 然 RISC 机 器 的 精简 指令 集体 系 结构 自身 已 倾向 
于 应 用 超标 量 技术 ， 但 超标 量 方法 既 能 用 于 RISC 也 能 用 于 CISC 体系 结构 。 

其 实 ， 以 IBM 801 和 Berkeley RISC I 开始 的 RISC 研究 到 RISC 商品 机 的 推出 ， 其 孕育 期 长 达 
7 ~8 年， 而 最 初 成 为 商业 可 用 的 超标 量 机 器 只 是 超标 量 这 个 概念 提出 后 一 两 年 的 事 。 超 标量 方 
法 现在 已 成 为 实现 高 性 能 微 处 理 器 的 标准 方法 。 

本 章 先 是 概述 超标 量 方法 ， 将 它 与 超级 流水 线 对 照 。 接 着 提出 与 超标 量 实现 相关 的 主要 设 
计 考 虑 。 然 后 考察 几 个 最 具 代表 性 的 超标 量 处 理 器 实例 。 


14.1 概述 


超标 量 (superscalar) 这 一 术语 最 早 是 在 1987 年 提出 的 [AGER87] ， 它 指 的 是 为 改善 标量 
指令 执行 性 能 而 设计 的 机 器 。 在 大 多 数 应 用 中 ， 大 量 操作 都 是 对 标量 进行 的 。 因 而 ， 超 标量 方法 
代表 了 高 性 能 通用 处 理 器 的 进一步 发 展 。 

超标 量 方法 的 本 质 是 ， 在 不 同 流水 线 中 独立 执行 指令 的 能 力 。 此 概念 可 进一步 发 展 为 ， 人 允许 
指令 以 不 同 于 原 程序 顺序 的 次 序 来 执行 。 图 14-1 说 明了 超标 量 方法 的 通用 模式 。 这 里 有 多 个 功 
能 单元 ， 每 个 单元 以 流水 线 方式 来 实现 ， 它 们 支持 几 条 指令 的 并 行 执行 。 此 例 中 ， 两 条 整数 指 
令 、 两 条 浮 点 指令 和 一 条 存储 器 操作 (装载 或 保存 ) 指令 能 同时 来 执行 。 

不 少 研究 人 员 考 察 了 类 似 超标 量 处 理 器 ， 他 们 的 研究 指出 某 种 程度 的 性 能 改善 是 可 能 的 。 
表 14-1 列 出 了 所 报告 的 性 能 改进 ， 结 果 的 不 同 起 因 于 被 模拟 机 器 硬件 和 被 模拟 应 用 两 方面 的 
不 同 。 
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表 14-1 超标 量 机 器 的 速度 提高 情况 











整数 寄存 器 组 泽 点 数 寄存 器 组 参考 文献 加 速 比 
WLLL. -_; KYXX SN EI Ls 
> [ i 
a ane a 
TG [ SOHI90 J 1.8 
[ SMIT89 ] 2.3 
存储 器 [ JOUP89b | 22 
[ LEE91 ] 7 





Al 14-1 通用 超标 量 结构 


14.1.1 ”超标 量 与 超级 流水 线 的 对 比 

实现 更 高 性 能 的 另 一 种 方法 是 超级 流水 线 (super pipelining) ， 这 一 术语 最 早 提出 是 在 1988 
年 [JOUP88] 。 超 级 流水 线 是 利用 了 如 下 事实 : 多 数 流水 阶段 所 完成 的 任务 只 需要 比 时 钟 周期 一 
半 还 少 的 时 间 。 于 是 ， 双 售 的 内 部 时 钟 速率 允许 在 一 个 外 部 时 钟 周期 内 完成 两 个 任务 。 我 们 已 看 
过 这 种 方法 的 一 个 例子 ，MIPS R4000。 

图 142 比较 了 这 两 种 方法 。 图 

的 上 部 显示 了 一 个 普通 的 流水 线 ， 
用 做 比较 的 基础 。 它 是 每 时 钟 周 其 
发 出 一 条 指令 ， 并 能 每 时 钟 周期 完 
成 一 个 流水 段 。 此 流水 线 有 4 B: 
取 指 令 、 操 作 译 码 、 操 作 执 行 和 结 
果 写 回 。 为 清楚 起 见 ， 执 行 段 以 阴 
影 表 示 ， 注 意 ， 虽 有 几 条 指令 并 行 
执行 ,但 任何 时 刻 只 有 一 条 指令 处 
于 执行 段 。 

图 的 中 间 部 分 表示 一 种 超级 流 
水 线 实现 ， 它 能 每 个 时 钟 周 期 完成 
两 个 流水 阶段 。 查 看 它 的 另 一 种 方 + 
式 是 ， 每 个 流水 段 所 完成 的 任务 能 填 
分 成 两 个 不 重叠 的 部 分 并 且 每 个 能 “总 
在 半 个 时 钟 周 期 内 执行 完 。 这 种 样 
式 的 超级 流水 线 被 称 作 级 别 为 2。 
最 后 ， 图 的 最 下 部 表示 的 是 一 种 超 RRR 
标量 实现 ， 它 能 并 行 执行 每 阶段 的 
两 个 实例 。 自 然 ， 更 高 程度 的 超级 
流水 线 和 超标 量 实现 也 完全 是 可 
能 的 。 

图 14-2 所 描述 的 超级 流水 线 和 
超标 量 实现 ， 二 者 在 稳定 状态 下 具 | 
有 相同 的 指令 数 同时 在 执行 。 在 程 
序 开始 和 每 次 转移 到 目标 时 ， 超 级 
流水 线 处 理 器 落后 于 超标 量 处 理 器 。 





aa 


图 14-2 超标 量 和 超 流 水 方法 的 比较 
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14.1.2 限制 


超标 量 方法 依赖 于 并 行 执行 多 条 指令 的 能 力 。 指 令 级 并 行 性 (instruction-level parallelism) 
指 的 是 程序 指令 能 并 行 执行 的 程度 。 硬 件 技术 与 编译 器 优化 技术 的 结合 能 够 达到 最 大 程度 的 指 
令 级 并 行 性 。 在 考察 超标 量 机 器 用 于 提高 指令 级 并 行 性 所 采用 的 设计 技术 之 前 ， 我 们 需要 查看 
并 行 性 的 基本 限制 ， 这 些 限制 是 系统 必须 认真 对 待 的 。 参 考 文献 [JOHN91] 中 列 出 5 种 限制 : 
e 真实 数据 相关 性 (true data dependency) 
o 过 程 相关 性 (procedural dependency) 
e 资源 冲突 (resource conflict) 
e 输出 相关 性 (output dependency) 
o 反 相 关 性 (antidependency ) 
本 节 先 考察 前 三 个 限制 ， 后 两 个 限制 留待 下 一 节 讨 论 。 
1. 真实 数据 相关 性 


考虑 如 下 指令 序列 : 
ADD EAX, ECX; 将 寄存 器 EAX 的 内 容 和 ECX 的 内 容 相 加 ,结果 保存 到 EAX 寄存 器 中 
MOV EBX, EAX; 将 寄存 器 EAX 的 内 容 保 存 到 EBX 寄存 器 中 


第 二 条 指令 能 取 指 并 译 码 ， 
但 直到 第 一 条 指令 执行 完成 之 
前 不 能 被 执行 。 原 因 在 于 第 二 
条 指令 需要 第 一 条 指令 产生 的 
数据 。 这 种 情况 称 为 真实 数据 
相关 性 ， 也 称 为 流 相 关 性 (flow 
dependency) 或 写 后 读 相 关 性 
(read after write dependency, 
RAW), 

图 14-3 说 明了 级 别 为 2 的 
超标 量 机 器 中 的 这 种 相关 性 。 
若 没有 相关 性 ， 两 条 指令 能 并 
行 地 取 指 和 执行 。 若 第 一 、 第 
二 条 指令 间 有 数据 相关 性 存 
在 ， 则 第 二 条 指令 要 延迟 一 定 
时 钟 周期 以 待 相关 性 消除 。 通 
常 ， 任 何 指令 直到 它 的 所 有 输 
入 值 都 已 产生 之 前 必须 被 ae 7 
延迟 。 i CoG BN Mn 个 

一 个 简单 的 流水 线 中 ， 例 功能 单元 ) ， 
如 图 14-2 上 部 所 示 的 流水 线 ， 
上 述 指令 序列 可 能 不 会 引起 延 
Ro Am, SRM Se 图 14-3 相关 性 的 影响 
列 ， 其 中 一 条 指令 从 内 存 装载 一 个 数 ， 而 不 是 从 寄存 器 读 一 个 数 : 


MOV EAX,eff ; 将 有 效 存储 器 地 址 eff 处 的 内 容 装 到 寄存 器 EAX 
MOV EBX,EAX ; 将 EAX 的 内 容 传送 到 寄存 器 EBX 





基本 周期 时 间 


O 对 于 Intel x86 汇编 语言 来 说 ， 每 行 的 分 号 后 为 注释 。 
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一 个 典型 的 RISC 处 理 器 要 用 2 个 或 更 多 时 钟 周期 来 完成 由 存储 器 取 数 的 操作 ， 这 是 由 于 储 
存 器 不 在 处 理 器 芯片 上 导致 的 延迟 ， 或 cache 的 存 取 延迟 。 补 偿 这 种 延迟 的 一 种 方法 是 编译 器 重 
排 指 令 顺 序 ， 让 不 必 等 待 存 储 器 装载 数据 的 一 条 或 多 条 后 续 指 令 开 始 进 入 流水 线 。 这 种 策略 在 
超标 量 流水 线 情况 下 不 太 有 效 。 在 装载 期 间 执行 的 这 种 不 相关 指令 很 可 能 在 装载 的 第 一 个 周期 
执行 完毕 ， 留 下 处 理 器 无 事 可 做 直到 装载 完成 。 

2. 过 程 相关 性 

正如 第 12 章 所 讨论 的 ， 指 令 序 列 中 出 现 分 支 指令 把 流水 操作 弄 复杂 了 。 分 支 (发 生 或 不 发 
生 转 移 ) 之 后 的 指令 有 对 分 支 指令 的 过 程 相 关 性 ， 而 且 直 到 分 支 指令 被 执行 之 前 它们 不 能 去 执 
行 。 图 14-3 说 明了 分 支 对 2 度 超标 量 流水 线 的 影响 。 

我 们 已 经 看 过 ， 这 类 过 程 相关 性 也 影响 简单 的 标量 流水 线 。 但 结果 对 于 超标 量 流水 来 说 要 
更 严重 ， 因 为 每 个 延迟 会 丢失 更 多 的 机 会 。 

若 使 用 变 长 指令 ,会 出 现 男 一 类 过 程 相关 性 。 因 为 任何 指令 的 具体 长 度 不 是 事先 已 知 的 ， 在 
取 后 续 指 令 之 前 ， 它 必须 至 少 部 分 地 被 译 码 。 这 就 妨碍 了 超标 量 流水 所 要 求 的 指令 同时 取 指 。 这 
也 是 超标 量 技 术 更 适合 用 于 RISC 或 类 RISC 结构 的 理由 之 一 ， 因 为 它们 的 指令 长 度 固定 。 

3. 资源 冲突 

资源 冲突 是 两 个 或 多 个 指令 同时 竞争 同一 资源 。 资 源 的 例子 包括 存储 器 、cache、 总 线 、 寄 
存 器 组 端口 和 功能 单元 (如 ALU 加 法 器 ) 。 

对 于 流水 线 而 言 ， 资 源 冲 突 展示 出 类 似 于 数据 相关 性 的 行为 (参见 图 14-3)。 然 而 也 有 些 不 
同 ， 资 源 冲突 可 通过 复制 资源 来 克服 ， 而 真实 数据 相关 性 是 不 能 被 取消 的 。 还 有 ， 当 操作 需要 较 
长 时 间 来 完成 时 ， 通 过 将 相应 的 功能 单元 流水 化 可 减轻 资源 冲突 。 

14.2 设计 考虑 
14.2.1 ”指令 级 并 行 性 和 机 器 并 行 

文献 [JOUP89a] 对 指令 级 并 行 性 和 机 器 并 行 性 这 两 个 相关 概念 指出 了 一 个 重要 的 区 别 。 当 
指令 序列 中 的 指令 是 独立 的 ， 并 因此 能 通过 重 芭 来 并 行 执 行 时 ， 则 存在 指令 级 并 行 性 (instrue- 
tion-level parallelism) 。 


作为 说 明 指令 级 并 行 性 概念 的 一 个 例子 ， 考 虑 如 下 两 个 代码 片段 [JOUP89b] : 


Load R1+—R2 Add R3+—-R3,"1" 
Add R3+«—-R3,"1" Add R4<«—R3 ,R2 
Add R4+—R4 ,R2 Store [R4 ]«—RO 


左边 的 三 条 指令 是 独立 的 ， 并 且 从 理论 上 讲 这 三 条 是 可 以 并 行 执行 的 。 相 对 照 ， 右 边 的 三 条 
指令 不 能 并 行 执行 ， 因 为 第 二 条 指令 使 用 了 第 一 条 的 结果 ， 第 三 条 指令 又 使 用 了 第 二 条 的 结果 。 

代码 中 的 真实 数据 相关 性 和 过 程 相关 性 的 频繁 程度 决定 了 指令 级 的 并 行 性 。 这 些 因素 本 身 
又 取决 于 指令 集体 系 结构 和 应 用 程序 。 指 令 级 并 行 性 也 可 由 操作 延迟 时 间 (operation latency) 所 
确定 【JOUP89a] 。 操 作 延 迟 时 间 是 指 ， 等 到 一 条 指令 的 结果 可 作为 后 续 指 令 的 操作 数 使 用 时 ， 
所 需 的 等 待 时 间 称 为 操作 延迟 时 间 。 它 确定 了 一 个 数据 或 过 程 相关 性 将 引起 多 长 的 延迟 。 

机 器 并 行 性 (machine parallelism) 是 指 处 理 器 获取 指令 级 并 行 性 好 处 的 能 力 程度 。 机 器 并 行 
性 由 下 面 这 些 因 素 决定 ， 它 能 同时 取 指 和 执行 的 指令 数 〈 并 行 流水 线 数 ) ， 以 及 处 理 器 用 于 找 出 
独立 指令 所 使 用 结构 的 速度 及 精巧 程度 。 

指令 级 并 行 性 和 机 器 并 行 性 都 是 提高 性 能 的 重要 因素 。 一 个 不 具有 充分 指令 级 并 行 性 的 程 
序 也 能 取得 机 器 并 行 性 的 全 部 好 处 。 像 RISC 那样 使 用 固定 长 度 的 指令 集结 构 ， 增 强 了 指令 级 并 
行 性 。 从 另 一 方面 讲 ， 有 限 的 机 器 并 行 性 将 限制 无 论 什么 性 质 的 程序 的 性 能 。 
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14.2.2 ”指令 发 射 策略 


正如 所 提 到 过 的 ， 机 器 并 行 性 并 不 只 是 使 每 个 流水 段 能 容纳 多 条 指令 这 样 简单 的 事情 。 处 
理 器 必须 能 识别 出 指令 级 并 行 性 ， 并 指挥 流水 线 并 行 地 去 取 指 、 译 码 和 执行 。 文 献 [JOHN91 ] 
使 用 了 术语 指令 发 射 (instruction issue) ， 它 是 指 启动 指令 去 处 理 器 功能 单元 执行 的 过 程 ， 并 用 
指令 发 射 策略 (instruction-issue policy) 这 个 术语 来 表示 启动 指令 执行 时 所 采用 的 协议 。 通 常 ， 
我 们 说 指令 发 射 是 在 指令 从 流水 线 的 译 码 阶段 ， 向 流水 线 的 执行 阶段 前 进 时 发 生 的 。 

实际 上 ， 指 令 发 射 就 是 处 理 器 试图 在 当前 执行 点 之 前 查找 能 进入 流水 线 并 执行 的 指令 。 因 
此 ， 三 种 类 型 的 排序 是 重要 的 : 

© 取 指 令 的 顺序 。 

。 指令 执行 的 顺序 。 

o 指令 改变 寄存 器 和 存储 器 位 置 内 容 的 顺序 。 

处 理 器 越 精巧 ， 对 这 些 顺 序 间 严格 关系 的 限制 就 越 少 。 对 那些 在 严格 顺序 执行 中 所 见 到 的 
次 序 ， 处 理 器 可 能 需要 更 改 一 个 或 多 个 指令 的 次 序 以 求 做 到 各 个 流水 线 部 件 的 最 大 化 利用 。 对 
此 的 唯一 限制 是 ， 处 理 器 必须 保证 结果 是 正确 的 。 于 是 ， 处 理 器 必须 协调 以 前 所 讨论 的 各 种 相关 
性 和 冲突 。 

通常 ， 我 们 能 把 超标 量 指令 发 射 策略 分 为 下 面 这 几 种 ; 

o 按 序 发 射 按 序 完 成 (in-order issue with in-order completion) 。 

o 按 序 发 射 乱 序 完成 (in-order issue with out-of-order completion) 。 

o 乱 序 发 射 乱 序 完 成 (out-of-order issue with out-of-order completion) 。 

1. 按 序 发 射 按 序 完 成 

最 简单 的 指令 发 射 策略 是 ， 严 格 地 按 顺序 执行 的 那个 顺序 发 射 指令 〈 按 序 发 射 ) 。 并 以 同样 
顺序 写 结果 ( 按 序 完成 ) 。 即 使 标量 流水 线 也 不 遵循 这 种 简单 方式 的 策略 。 然 而 将 它 作 为 更 复杂 
指令 发 射 方法 的 一 个 比较 底线 还 是 有 用 的 。 

图 14-4a 给 出 这 种 策略 的 一 个 例子 。 假 定 超标 量 流水 线 一 次 能 取 并 译 码 两 条 指令 ， 有 三 个 分 
立 的 功能 单元 (如 整数 算术 、 浮 点 算术 等 ) ， 有 两 个 流水 写 回 段 的 部 件 。 例 子 是 一 个 6 条 指令 的 
代码 片段 ， 并 假定 有 如 下 限制 ; 

。 Tl 执行 要 求 两 个 执行 周期 。 

。 13 和 14 为 使 用 同一 功能 单元 而 发 生 冲 突 。 

e 15 依赖 于 14 产生 的 值 。 

e 15 和 16 为 使 用 同一 功能 单元 而 发 生 冲 突 。 

指令 是 一 次 取 两 条 并 传送 到 译 码 单元 。 因 为 指令 是 成 对 取 ， 所 以 下 两 条 指令 必须 等 待 ， 直 到 
译 码 流水 段 已 完成 上 次 所 取 指 令 的 译 码 。 为 保证 按 序 完成 ， 当 有 功能 单元 冲突 或 功能 单元 产生 
结果 需要 不 止 一 个 周期 时 ， 指 令 发 射 必须 停止 。 

在 这 个 例子 中 ， 由 译 码 第 一 条 指令 到 写 回 最 后 结果 总 共 花 费 的 时 间 是 8 个 时 钟 周期 。 

2. 按 序 发 射 乱 序 完成 

乱 序 完成 在 标量 RISC 机 器 中 用 来 改善 需要 执行 多 个 时 钟 周 期 指令 的 性 能 。 图 14-4b 说 明了 
它 在 超标 量 处 理 器 上 的 使 用 。 指 令 了 2 被 允许 先 于 了 1 完成。 这 就 允许 B 也 能 更 早 完 成 ， 从 而 节省 
了 一 个 时 钟 周 期 。 

采用 乱 序 完 成 ， 任 何 时 候 可 能 有 多 条 指令 在 流水 线 执行 阶段 运行 ， 最 大 数目 取决 于 各 个 功 
能 单元 之 间 的 最 大 机 器 并 行 度 。 如 果 发 生 资源 冲突 、 出 现 数据 相关 性 或 过 程 相关 性 ， 指 令 发 射 将 
被 迫 停顿 。 

除 上 面 的 限制 外 ， 一 种 新 的 相关 性 。 前 面 曾 称 为 输出 相关 性 ， 也 称 为 “ 写 后 写 ” 相 关 性 
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(write after write dependency, WAW) 出 现 了 。 以 下 代码 片段 说 明了 这 种 相关 性 (其 中 OP 表示 任 
何 一 种 操作 ) o 

Il: R3+—R3 op R5 

I2 :R44—R3 + 1 

I3 :R3«+-R5 + 1 

I4 :R74—R3 op R4 


指令 了 2 不 能 先 于 1 HIT, 因为 卫 需 要 了 1 在 R3 产生 的 结果 。 这 是 14.1 节 所 描述 过 的 真实 数 
据 相关 性 的 例子 。 类 似 地 ，H 必须 等 待 B， 因 为 它 使 用 [3 产生 的 结果 。 那 么 IL MB 之 间 有 什么 
关系 呢 ? 这 里 没有 我 们 已 定义 的 那 种 数据 相关 性 。 然 而 ,车 B 的 执行 先 于 I 完成 ， 则 R3 内 容 
的 错误 值 将 被 4 的 执行 所 取 用 。 于 是 ，B 必须 在 11 之 后 完成 ， 以 产生 正确 的 结果 。 如 果 它 的 结 
果 可 能 会 被 一 条 需要 较 长 时 间 完成 的 较 早 指令 改写 的 话 ， 为 保证 结果 正确 ， 第 3 条 指令 的 发 射 必 
须 停止 。 

乱 序 完成 比 按 序 完成 要 求 更 复杂 的 指令 发 射 饪 辑 。 另 外 ， 在 处 理 中 断 和 异常 时 也 更 困难 。 当 
一 个 中 断 出 现时 ， 当 前 点 的 指令 执行 被 挂 起 ， 中 断 处 理 后 再 恢复 。 处 理 器 必须 保证 这 个 恢复 操作 
已 考虑 到 下 述 情况 : 中 断 发 生 时 ， 那 些 位 于 引起 此 中 断 的 指令 之 后 的 指令 可 能 已 先行 完成 。 

3. 乱 序 发 射 乱 序 完成 

如 果 按 序 发 射 ， 那 么 处 理 器 对 指令 进行 译 码 时 ， 遇 到 相关 点 或 冲突 点 即 停顿 ， 这 期 间 没有 另 
外 的 指令 被 译 码 ， 直 到 冲突 解决 。 于 是 ， 处 理 器 不 能 向 前 查看 冲突 点 的 后 续 指令 ， 而 这 些 后 续 指 
令 可 能 独立 于 已 在 流水 线 中 的 指令 ， 因 而 可 以 引入 流水 线 中 。 

为 允许 乱 序 发 射 ， 有 必要 解 辜 流水 线 的 译 码 段 和 执行 眉 。 这 是 通过 使 用 一 个 称 为 指令 窗口 
(instruction window) 的 缓冲 器 来 完成 的 。 在 这 种 组 织 方式 下 ， 处 理 器 译 完 一 条 指令 就 把 它 放 入 指 
令 窗 口 ， 只 要 缓冲 器 未 满 ， 处 理 器 就 继续 取 指 和 译 码 新 指令 。 当 执行 阶段 中 的 功能 单元 变 成 可 用 
时 ， 需 要 此 功能 单元 的 指令 就 会 由 指令 窗口 发 射 到 执行 慌 。 只 要 (1) 指令 所 需 的 具体 功能 单元 
是 可 用 的 ， 以 及 (2) 没有 冲突 或 
相关 性 阻塞 这 条 指令 ， 那 任何 指令 
都 可 以 被 发 射 。 

这 种 组 织 方式 的 结果 是 ， 处 理 
器 有 先行 查找 的 能 力 ， 允 许 它 识别 
那些 能 放 入 执行 段 的 独立 指令 。 指 
令 由 指令 窗口 发 射出 去 的 次 序 很 少 
遵照 它们 原来 的 程序 顺序 。 同 前 面 
一 样 ， 唯 一 的 限制 是 程序 执行 的 结 
果 是 正确 的 。 

图 14-4c 说 明了 这 种 策略 。 每 
周期 两 条 指令 取信 译 码 段 。 由 于 组 
冲 器 大 小 限制 ， 每 周期 两 条 指令 由 
泽 码 段 进 入 指令 窗口 。 在 这 个 例子 
中 ,指令 16 先 于 IS 被 发 射 是 可 能 
的 (回想 一 下 , 15 依赖 于 4M, 但 16 
不 这 样 ) 。 于 是 ， 执 行 和 写 回 两 自 
都 节省 了 一 个 周期 ， 与 图 14-4b 相 
比较 ， 端 到 端 节省 了 一 个 周期 。 

图 14-4c 中 所 表示 的 指令 窗口 0) 乱 序 发 射 和 乱 序 完成 
仅 在 于 说 明 它 的 作用 。 注 意 ， 它 并 图 14-4 ”超标 量 流水 线 指令 发 射 和 完成 策略 
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不 是 一 个 附加 的 流水 线 阶段 。 一 条 指令 位 于 窗口 中 简单 地 意味 着 ,处 理 器 具有 关于 那 条 指令 
何 时 发 射 的 充足 信息 。 

乱 序 发 射 乱 序 完成 策略 也 要 服从 前 面 所 描述 过 的 限制 。 若 一 条 指令 违背 相关 性 或 冲突 ， 那 
它 不 能 进行 发 射 。 不 同 在 于 ， 有 更 多 的 指令 可 用 来 发 射 ， 减少 了 流水 线 阶段 不 得 不 停顿 的 发 生 概 
率 。 另 外 ， 一 种 前 面 称 为 反 相 关 性 〈 也 称 为 “ 读 后 写 ”相关 性 ，WAR) 的 问题 出 现 了 。 前 面 曾 
考察 过 的 代码 段 可 说 明 这 种 相关 性 。 


I1:R3«-R3 op R5 
I2 :R4«-R3 +1 
I3 :R3«-R5 +1 
14 :R7«-R3 op R4 


在 指令 D 开始 执行 并 已 取得 它 的 操作 数 之 前 ， 指 令 13 不 能 完 
成 执行 。 这 是 因为 B 修改 寄存 器 R3， 而 R3 是 2 的 源 操作 数 。 这 
里 使 用 术语 反 相关 性 (antidependeney) ， 因 为 这 一 限制 与 真实 数据 
相关 性 类 似 ， 但 正好 相反 。 真 实数 据 相关 性 是 前 一 条 指令 产生 的 值 | 
会 被 后 一 条 指令 使 用 ， 而 反 相 关 性 是 后 一 条 指令 破坏 前 一 条 指令 所 | 。 BERT R ENS 
使 用 的 数据 值 。 另外 的 Tomasulo 算法 模拟 器 














14.2.3 ”寄存 器 重 命名 


当 人 允许 乱 序 指令 发 射 和 /或 乱 序 指令 完成 时 ， 我 们 已 看 到 ， 这 有 输出 相关 性 〈 写 后 写 相关 
E, WAW) 和 反 相 关 性 〈 读 后 写 相关 性 ，WAR) 的 可 能 性 。 这 些 相关 性 不 同 于 真实 数据 相关 性 
和 资源 冲突 ， 后 者 反映 了 通过 程序 的 数据 流 和 执行 的 顺序 ， 而 输出 相关 性 和 反 相 关 性 的 出 现 ， 从 
另 一 方面 看 ， 是 因为 寄存 器 的 值 可 能 不 再 反映 被 程序 流 指定 的 值 顺序 。 

当 指 令 顺序 发 射 顺序 完成 时 ， 在 程序 的 每 个 执行 点 上 确定 每 个 寄存 器 的 内 容 是 可 能 的 。 当 
采用 乱 序 技术 时 ， 仅 考虑 程序 指定 的 指令 顺序 ， 则 每 点 上 的 寄存 器 值 不 能 完全 已 知 。 实 际 上 ， 值 
对 于 寄存 器 的 使 用 是 存在 冲突 的 ， 处 理 器 必须 偶尔 停顿 一 个 流水 线 阶段 来 解决 这 些 冲 突 。 

反 相 关 性 和 输出 相关 性 都 是 寄存 器 存储 冲突 的 例子 。 多 个 指令 为 使 用 同一 寄存 器 位 置 而 竞 
争 ， 产生 了 妨碍 性 能 的 流水 限制 。 当 寄存 器 优化 技术 被 采用 时 ， 问 题 变 得 更 严重 ， 因 为 这 些 编译 
器 技术 力图 最 大 限度 地 使 用 寄存 器 ， 于 是 也 使 寄存 器 存储 冲突 最 大 化 。 

对 付 这 种 类 型 的 存储 冲突 的 一 种 方法 是 基于 传统 的 资源 冲突 解决 方法 : 资源 复制 。 在 现在 
的 语 境 中 ， 此 技术 称 为 寄存 器 重 命名 (register renaming) 。 本 质 上 ， 寄 存 器 由 处 理 器 硬件 动态 分 
配 ， 并 且 它 们 与 各 时 间 点 指令 所 需 值 相关 。 当 一 个 新 寄存 器 值 产 生 时 〈 即 当 一 条 以 寄存 器 为 目 
标 操 作 数 的 指令 执行 时 ) ， 一 个 新 寄存 器 分 配给 那个 值 。 作 为 源 操作 数 访问 那个 寄存 器 值 的 后 续 
指令 必须 通过 一 个 重 命名 过 程 : 这 些 指令 中 的 寄存 器 引用 部 分 必须 修改 成 对 含有 所 需 值 寄存 器 
的 引用 。 于 是 ， 若 准备 使 用 不 同 值 ， 不 同 指令 中 的 同样 原始 寄存 器 引用 可 能 引用 到 不 同 的 实际 寄 
FEAR o 

让 我 们 考虑 寄存 器 重 命名 如 何 用 于 已 考察 过 的 那个 代码 段 上 。 


T1 :R3,<-R3, op R5, 

I2 :R4 RS, +1 

I3 :R3,.«-R5, + 1 

14 :R7,+-R3,. op R4, 

不 带 下 标的 寄存 器 引用 指 的 是 指令 中 找到 的 逻辑 寄存 器 。 带 下 标的 寄存 器 引用 指向 被 分 配 
用 来 保存 新 值 的 硬件 寄存 器 。 当 对 一 具体 逻辑 寄存 器 进行 新 的 分 配 后 ， 作 为 源 操作 数 访问 那个 
逻辑 寄存 器 的 后 续 指 令 要 修改 成 对 最 近 被 分 配 的 硬件 寄存 器 的 引用 (最 近 是 依据 程序 的 指令 顺 
序 而 定 ) 。 


在 这 个 例子 中 ， 指 令 B 中 的 寄存 器 R3。 的 生成 ， 避 免 了 对 第 二 条 指令 的 反 相 关 性 和 对 第 一 
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条 指令 的 输出 相关 性 ， 而 且 它 不 影响 正 被 M 访问 的 正确 值 。 结 果 是 13 能 立即 被 发 射 ; 没有 重 命 
名 ， 直 到 第 一 条 指令 完成 和 第 二 条 指令 已 发 射 之 前 ，BDB 不 能 发 射 。 

不 同 于 寄存 器 重 命 名 的 另 一 种 允许 指令 乱 序 发 射 的 技术 是 记分 牌 
(scoreboarding) 。 本 质 上 讲 ， 记 分 牌 是 一 种 寄存 器 使 用 登记 技术 ， 该 技术 多 
许 指令 乱 序 执行 ， 只 要 指令 不 依赖 于 前 面 的 指令 ， 而 且 不 存在 结构 冒险 的 时 
候 ， 该 指令 就 可 以 被 发 射 。 请 参考 附录 工 对 记分 牌 技术 的 介绍 。 记分 牌 模拟 器 


14.2.4 机 器 并 行 性 

前 面 已 查看 了 能 用 在 超标 量 处 理 器 中 提高 性 能 的 三 种 硬件 技术 : 资源 复制 、 乱 序 发 射 和 重 
命名 。[SMIT89] 中 的 研究 报告 说 明了 这 些 技术 之 间 的 相互 关系 。 这 个 研究 是 在 有 MIPS R2000 
特征 的 模拟 器 上 进行 的 ， 并 带 有 各 种 超标 量 特性 的 增强 。 研 究 者 对 几 种 不 同 的 程序 指令 序列 进 
行 了 模拟 。 





图 14.5 表示 其 结果 。 在 WS ee ee 
每 个 图 中 ， 纵 轴 表 示 超 标量 机 加 速 。 PERK 加速。 ”有 重合 各 
器 与 标量 机 器 相对 比 的 加 速 程 4 ， 


度 。 横 轴 对 应 着 4 种 不 同 的 处 | | | E 
理 器 组 织 。 基 本 (base) 机 器 | | 

不 复制 任何 功能 单元 ， 但 它 可 | 
以 乱 序 地 发 射 指令 。 第 二 种 配 。 ， | | | 

a (+ 装 和 人 /存储 ) 是 复制 了 OO] 上 | 

访问 数据 cache 的 装载 /保存 功 | | | | i | 
能 单元 。 第 三 种 配置 ( + ALU) 5E | 

复制 了 ALU。 第 四 种 配置 〈 + P o] | 




















E SS SS i} (BiB! i 
两 者 ) 是 装载 /保存 和 ALU 都 0 基本 + 装 入 ”+ALU + 两 者 OK HBA “+ALU + 两 着 
复制 。 每 个 图 中 的 三 个 图 柱 分 /存储 /存储 
别 对 应 的 是 8、16 和 32 条 指 图 14-5 ”无 过 程 相 关 性 的 不 同 机 器 组 织 结构 的 加 速 比 


令 的 指令 窗口 ， 它 们 指出 处 理 
器 能 先行 查找 的 指令 总 量 。 左 右 两 图 的 不 同 在 于 右 图 允许 寄存 器 重 命 名 。 这 等 于 说 ， 左 图 反映 的 
机 器 受 限于 所 有 相关 性 ， 而 右 图 所 对 应 的 机 器 只 受 限 于 真实 相关 性 。 

结合 两 图 ， 能 得 出 某 些 重要 的 结论 。 首 先 ， 没 有 寄存 器 重 命名 而 添加 功能 单元 可 能 不 会 很 有 
价值 。 此 时 会 有 某 些 少许 的 性 能 改善 ， 但 要 付出 增加 硬件 复杂 性 的 代价 。 使 用 寄存 器 重 命名 ， 取 
消 了 反 相 关 性 和 输出 相关 性 ， 通 过 添加 更 多 的 功能 单元 能 实现 显著 的 加 速 。 还 要 注意 ， 在 实现 加 
速 的 总 量 方面 ， 使 用 8 指令 的 指令 窗口 与 更 大 指令 窗口 之 间 也 有 明显 的 不 同 。 这 指出 ， 若 指令 窗 
口 太 小 ， 数 据 相 关 性 将 妨碍 额外 功能 单元 的 有 效 利用 ; 处 理 器 必须 有 能 力 更 快 更 超前 地 找 出 独 
立 的 指令 ， 才 能 更 全 面 地 利用 硬件 。 


14.25 “分 支 预测 


任何 高 性 能 的 流水 式 机 器 必须 解决 分 支 处 理 问题 。 例 如 ，Intel 80486 
解决 这 个 问题 的 方法 是 ， 既 读 取 位 于 分 支 指令 之 后 的 下 一 顺序 指令 ， 又 推 
测 地 读 取 转 移 目 标 处 的 指令 。 然 而 ， 由 于 取 指 和 执行 之 间 有 两 个 流水 段 ， 
当 转 移 发 生 时 这 种 策略 要 导致 两 个 周期 的 延迟 。 

基于 RISC 机 器 的 先进 性 ， 可 采用 延迟 分 支 策略 。 这 允许 处 理 器 在 预 
取 一 些 无 用 指令 之 前 ， 先 计算 条 件 分 支 指令 的 结果 。 通 过 这 种 方法 ， 处 理 器 总 是 执行 紧 跟 在 分 支 
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指令 之 后 的 那 条 指令 。 这 样 ， 在 处 理 器 读 取 新 的 指令 流 的 同时 ， 可 保持 流水 线 满 载 。 

随 着 超标 量 机 器 的 开发 ， 延 迟 分 支 策略 反而 较 少 采用 了 。 原 因 在 于 ， 多 条 指令 需要 在 延迟 覃 
中 执行 ,会 引起 一 些 指令 相关 性 问题 。 于 是 ， 超 标量 机 器 又 转 回 到 RISC 出 现 以 前 使 用 的 分 支 预 
测 技术 。 某 些 机 器 ， 像 PowerPC 601， 采 用 简单 的 静态 分 支 预测 技术 。 更 为 复杂 的 机 器 ， 像 Pow- 
erPC 620 和 Pentium 4， 采 用 基于 转移 历史 分 析 的 动态 分 支 预测 技术 。 


14.26 ”超标 量 执行 


现在 ,我 们 可 对 超标 量 的 执行 提供 一 个 概述 ， 如 图 14-6 所 示 。 将 被 执行 的 程序 由 一 个 线性 
指令 序列 组 成， 这 是 程序 员 编 写 的 Hom | HORA 
或 编译 器 生成 的 静态 程序 。 包 括 分 取 指 和 分 支 tee 
指令 执行 。 指令 重 排 
支 预测 在 内 的 取 指 令 过 程 ， 用 来 形 序 和 提交 


成 一 个 动态 的 指令 流 。 对 此 指令 流 
进行 相关 性 检查 ， 处 理 器 会 解除 某 | | 
些 人 为 的 相关 性 。 然 后 处 理 器 派发 





指令 进入 执行 窗口 ， 在 此 窗口 中 指 
令 不 再 是 顺序 流 ， 而 是 依据 它们 的 


真实 数据 相关 性 来 排序 。 处 理 器 以 eta 
真 数据 相关 性 和 资源 可 用 性 所 确定 en 
的 顺序 来 完成 每 条 指令 的 执行 阶 aS eee 


段 。 最 后 ， 指 令 的 结果 被 登记 。 从 概念 上 讲 ， 它 们 是 放 回 到 原 顺 序 序列 。 

上 面 所 提 到 的 最 后 一 步 称 为 提交 (commiting) 或 回收 (retiring) 指令 。 需 要 此 步 有 如 下 理 
由 : 首先 ， 由 于 使 用 并 行 的 多 条 流水 线 ， 指 令 会 以 不 同 于 静态 程序 的 顺序 来 完成 ; 其 次 ， 分 支 预 
测 和 推测 执行 的 使 用 ， 意 味 着 某 些 指令 会 已 完成 执行 但 其 结果 需要 被 放弃 ， 因 为 它们 所 在 的 分 
支 没有 真正 发 生 。 于 是 ， 当 一 条 指令 执行 完 ， 不 能 立即 修改 固有 存储 位 置 和 程序 可 见 的 寄存 器 ， 
而 应 将 结果 暂 存 到 一 个 相关 指令 可 使 用 的 临时 存储 位 置 中 。 当 确认 顺序 模型 应 执行 此 指令 时 ， 
再 使 其 结果 固定 化 。 


14.2.7 超标 量 实现 


依 上 述 的 全 面 讨论 ， 我们 能 对 超标 量 方式 所 需要 的 处 理 器 硬件 予以 某 些 一 般 性 评论 。 在 
[SMIT95 ] 中 列 出 了 如 下 关键 部 件 : 

。 同时 取 多 条 指令 的 取 指 策略 ， 经 常 要 有 预测 条 件 分 支 指令 结果 和 超前 取 指 的 功能 ， 这 要 
求 使 用 多 个 取 指 和 译 码 流水 线段 ， 以 及 分 支 预测 逻辑 。 

。 确定 有 关 寄 存 器 值 真 相关 性 的 逻辑 ， 以 及 执行 期 间 把 这 些 值 与 需要 它们 的 位 置 之 间 相互 
联系 起 来 的 机 制 。 

。 并 行 启动 或 发 射 多 条 指令 的 机 制 。 

。 多 条 指令 并 行 执行 所 需 的 资源 ， 这 包括 多 个 流水 式 的 功能 单元 ， 以 及 为 多 个 存储 器 访问 
同时 提供 服务 的 存储 器 层次 结构 。 

© 以 正确 顺序 提交 处 理 状态 的 机 制 。 


14.3 Pentium 4 


虽然 超标 量 设计 这 一 概念 通常 是 与 RISC 体系 结构 联系 在 一 起 的 ， 但 是 同样 的 超标 量 原 则 也 
能 应 用 到 CISC 机 器 上 。 也 许 ， 这 方面 最 著名 的 例子 要 属 Pentium 了 。 考 察 超标 量 概念 在 Intel 产 
品系 列 中 的 发 展 情况 是 有 益 的 。386 是 一 个 传统 的 非 流水 CISC 机 器 。486 是 x86 系列 处 理 器 中 第 
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一 个 引入 流水 线 的 ， 从 而 使 得 整数 操作 的 平均 延迟 从 2 ~4 个 时 钟 周期 减少 到 了 1 个 时 钟 周期 。 
不 过 486 仍然 被 限制 为 一 个 时 钟 周期 只 能 执行 一 条 指令 ， 没 有 超标 量 的 部 件 。 最 初 的 Pentium 有 
了 一 定 的 超标 量 能 力 ， 它 使 用 了 两 个 分 立 的 整数 执行 单元 。Pentium Pro 引入 了 全 面 的 超标 量 设 
计 理 念 。 后 续 的 Pentium 型 号 处 理 器 具有 更 精进 、 功 能 更 强大 的 超标 量 设计 。 

图 4-18 给 出 Pentium 4 的 普通 框图 。 图 14-7 描述 同样 的 结构 ， 但 更 适合 于 本 节 将 要 进行 的 
Pentium 4 流水 线 讨论 。Pentium 4 的 操作 总 结 成 如 下 : 

(1) 处 理 器 以 静态 程序 的 顺序 由 存储 器 取 指 令 。 

(2) 每 条 指令 被 译 成 一 个 或 多 个 定 长 的 RISC 指令 ， 称 为 微 操 作 (micro-operation, micro-op) 。 

(3) 处 理 器 在 超标 量 流水 组 织 上 执行 微 操作 ， 因 此 微 操作 可 能 以 乱 序 方式 来 执行 。 

(4) 处 理 器 以 原 程序 流 的 顺序 将 每 个 微 操 作 的 执行 结果 提交 到 处 理 器 的 寄存 器 组 。 


L2 cache 和 控制 。 





3.2GB/s 系 统 接口 


踪迹 (trace) cache 


A 
四 
zy 
& 
B 
fea 


寄存 器 重 命名 /分 配 
”LI1 D-cache 和 D-TLB 





AGU = 地 址 生成 单元 
BTB = 转移 目标 缓冲 器 
D-TLB= 数据 地 址 转换 后 援 缓冲 器 
LTLB = 指令 地 址 转换 后 援 缓冲 器 


图 14-7 Pentium 4 结构 图 


从 效果 上 看 ，Pentium 4 体系 结构 由 外 层 的 CISC 壳 和 内 部 的 RISC 核 所 组 成 。 内 部 的 RISC 微 
操作 通过 至 少 有 20 Be (stage) 的 流水 线 〈 见 图 14-8 ) 。 在 某 些 情况 下 ， 微 操作 要 求 多 个 执行 段 ， 
这 导致 流水 线 更 长 。 这 可 与 早期 Intel x86 处 理 器 和 Pentium 上 使 用 的 5 段 流 水 线 ( 见 图 12-19) 

现在 让 我 们 使 用 图 14-9 逐步 说 明 Pentium 4 的 流水 线 操作 。 


MEET AVEI RES A RR RN TE A 
1 2 3 i 4s OA bys 9 | 10 全， b AD 1184-19 1-20 
TC NxtIP | TC Fetch IDrivelAlloc| Rename | Que | Sch | Sch |Disp | Disp} RF | RF | Ex | Figs |Br CklDrivel 





TC Next IP= 踪 迹 cache 下 一 条 指令 的 指针 Rename=#f (7 #8 & fit % RF= 寄 存 器 组 

TC Fetch= 踪 迹 cache 取 指 Que= 微 操作 队列 Ex= 执 行 

Alloc= 分 配 Sch= 微 操作 调度 Flgs= 标 志 
Disp= 派 发 Br Ck= 分 支 检查 


图 14-8 Pentium 4 流水 线 
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d) 驱动 


c) 踪迹 cache 读 取 
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P) 微 操作 队列 


寄存 器 重 命名 


e) 分 配 ; 


图 14-9 Pentium 4 流水 线 操作 
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h) 派 发 


B) 微 操作 调度 
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j) 执 行 : 标志 


i) 寄 存 器 组 
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1 分支 检 查 结果 


kg) 分 支 检 查 


( 续 ) 


图 14-9 
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14.3.1 前 端 


1. 微 操作 生成 

Pentium 4 的 组 织 包 括 了 一 个 按 序 操作 的 前 端 (front end) ( 见 图 14-9a) ， 但 这 部 分 被 认为 在 
图 14-8 所 示 的 Pentium 4 流水 线 范 围 之 外 。 这 个 前 端 向 一 个 称 为 踪迹 cache (trace cache) 的 Ll 指 
4 cache 提供 指令 。 由 踪迹 cache 起 ， 才 算是 流水 线 的 正式 开始 。 通 常 ， 处 理 器 由 踪迹 cache 取 操 
作 命 令 ; 当 踪 迹 cache 未 命中 时 ， 有 序 前 端 向 踪迹 cache 提供 新 指令 。 

通过 转移 目标 缓冲 器 和 指令 地 址 转换 后 备 缓冲 器 (BTB&I-TLB) 的 支援 ， 取 指 / 译 码 单元 由 
L2 cache 读 取 Pentium 4 的 机 器 指令 ， 每 次 64 字 节 。 作 为 默认 情况 ， 指 令 是 顺序 取 指 ， 包 含 下 一 
条 指令 的 每 个 cache 行 被 一 并 取 来 。 分 支 预测 逻辑 经 由 BTB 和 I-TLB 单元 可 更 改 取 指 操作 的 顺 
序 。I-TLB 将 指令 指针 的 线性 地 址 转换 成 物理 地 址 ， 以 便 访问 L2 cache。 前 端 中 的 这 个 BTB 使 用 
静态 分 支 预测 来 确定 下 次 取 哪 条 指令 。 

一 旦 指令 被 取 来 ， 先 由 取 指 / 译 码 单元 扫描 字 节 以 确定 指令 边界 。 这 是 必要 的 ， 因 为 Pentium 4 
机 器 指令 是 变 长 的 。 译 码 器 再 将 每 条 机 器 指令 翻译 成 1 ~4 个 微 操作 ， 每 个 微 操 作 是 118 位 的 RISC 
指令 。 相 比 之 下 大 多 数 纯 RISC 机 器 的 指令 长 度 只 有 32 位 。 为 适应 复杂 的 Pentium 4 机 器 指令 ， 
其 微 操 作 要求 有 较 长 的 长 度 。 尽 管 较 长 ， 但 定 长 的 微 操 作 要 比 原来 变 长 的 机 器 指令 易于 管理 。 

生成 的 微 操作 存储 于 踪迹 cache 中 。 

2. 踪迹 cache 

Pentium 4 流水 线 开 始 的 两 段 是 踪迹 cache 下 一 指令 指针 (TC Next IP)， 它 负责 在 踪迹 cache 
中 选择 指令 ， 这 涉及 另 一 个 不 同 于 上 述 前 端 所 采用 的 分 支 预测 结构 〈( 见 图 14-9b) Pentium 4 使 
用 基于 分 支 指令 最 近 执 行 历 史 的 动态 分 支 预测 策略 。Pentium 4 维护 有 一 个 转移 目标 缓冲 器 
(BTB) ， 它 缓存 了 最 近 遇 到 的 分 支 指令 执行 情况 的 相关 信息 。 每 当 在 指令 流 中 遇 到 一 条 分 支 指 
令 ， 该 结构 就 去 检查 BTB。 若 相应 的 项 已 在 BTB 中 ， 则 以 此 项 的 历史 信息 为 指导 确定 是 否 应 预 
测 转 移 发 生 。 若 是 ， 则 与 此 项 相关 联 的 转移 目标 地 址 作为 下 一 指令 指针 ; 若 否 ， 则 顺序 取 下 一 
指令 。 

一 旦 转移 指令 被 执行 ， 相 应 项 的 历史 信息 被 修改 以 反映 该 指令 的 本 次 执行 结果 。 如 果 所 遇 
到 的 分 支 指令 在 BIB 中 没有 相应 项 ， 则 这 条 指令 的 地 址 装 入 BTB 中 的 一 项 ， 如 果 有 必要 ， 则 上 先 
删除 一 个 旧 的 项 。 

一 般 来 说 ， 上 面 的 描述 符合 最 初 的 Pentium 型 号 以 及 包括 Pentium 4 在 内 的 后 来 型 号 所 使 用 
的 分 支 预测 策略 。 然 而 ， 最 初 的 Pentium 只 使 用 相对 简单 的 2 位 历史 位 ; 后 来 的 Pentium 型 号 由 于 
有 更 长 的 流水 线 (Pentium 4 有 20 段 ，Pentium RAS 段 ) ， 预 测 失 误 所 带 来 的 性 能 损失 也 就 更 
大 。 因 此 后 来 的 Pentium 4 型 号 使 用 了 更 多 的 历史 位 ， 以 更 精细 的 分 支 预测 算法 来 降低 预测 失 
误 率 。 

Pentium 4 的 BTB 组 成 一 个 4 路 组 关联 cache， 共 有 512 行 。 每 项 使 用 分 支 指令 地 址 作为 标记 
(tag) ， 每 项 还 包括 4 位 历史 字段 ， 以 及 转移 最 后 一 次 发 生 时 的 转移 目标 地 址 。Pentium 4 使 用 4 
位 历史 位 ， 就 能 在 转移 预测 时 考虑 到 更 长 的 历史 状况 ， 所 用 的 算法 称 为 Yeh 算法 [YEH91]。 此 
算法 的 研发 者 已 用 实例 验证 了 ， 与 仅 使 用 2 位 历史 位 的 算法 相 比 ， 该 算法 能 显著 地 降低 预测 失误 
率 [EVER98 ] 。 

在 BTB 中 无 历史 记录 的 条 件 分 支 指令 ， 采 用 静态 预测 算法 。 转 移 与 否 根据 如 下 规则 来 预测 ; 

。 对 于 转移 地 址 不 是 IP 相对 寻 址 的 条 件 分 支 指令 ， 如 果 该 分 支 指令 是 一 个 返回 ， 则 预测 发 

生 ， 否 则 预测 不 发 生 。 
o 对 于 了 IP 相对 寻 址 的 后 向 条 件 分 支 指令 ， 预 测 转 移 发 生 。 这 个 规则 反映 了 典型 的 循环 行为 。 
o 对 于 IP 相对 寻 址 的 前 向 条 件 分 支 指 令 ， 预 测 转 移 不 发 生 。 
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3. 踪迹 cache 取 指 

踪迹 cache ( 见 图 14-9c) 读 取 已 由 指令 译 码 器 翻译 成 的 微 操 作 ， 并 将 它们 装配 成 按 程序 顺 
序 的 微 操 作 序列 ， 此 序列 被 称 为 踪迹 。 踪 迹 cache 按 顺 序 取 微 操作 ， 服 从 于 分 支 预测 逻辑 。 

少数 指令 要 求 多 于 4 个 的 微 操 作 ， 这 些 指 令 被 传送 到 微 代 码 ROM。 它 为 每 条 复杂 的 机 器 指 
令 保 存 了 一 个 对 应 的 微 操 作 串 组 (5 个 或 更 多 的 微 操 作 ) 。 例 如 ， 一 条 串 操作 机 器 指令 可 由 ROM 
翻译 成 很 多 (其 至 上 百 次 ) 重复 的 微 操 作 串 组 。 于 是 ， 微 代码 ROM 实际 上 是 一 个 微 程序 式 控制 
器 ( 它 将 在 第 4 部 分 介绍 ) 。 在 微 代 码 ROM 完成 为 当前 复杂 指令 产生 微 操 作 后 ， 又 恢复 到 由 踪 
迹 cache 读 取 微 操 作 。 

4. 驱动 

Pentium 4 流水 线 的 第 5 Be ( 见 图 14-9d) 称 为 驱动 (drive) ， 它 负责 将 译 码 后 的 指令 由 踪迹 
cache 递交 给 重 命名 /分 配 模块 。 


14.3.2 ” 乱 序 执行 逻辑 


处 理 器 的 这 部 分 将 重 排 序 微 操作 ， 以 允许 它们 只 要 输入 操作 数 一 旦 就 绪 就 可 快速 地 被 执行 。 
1. 分 配 
流水 线 的 分 配 (allocate) Be ( 见 图 14-9e) 为 微 操作 的 执行 分 配 资源 。 它 完成 如 下 功能 : 
。 每 时 钟 周 期 有 三 个 微 操 作 到 达 分 配器 。 如 果 其 中 某 个 微 操 作 所 需 的 寄存 器 这 类 资源 不 可 
用 ， 则 分 配器 停顿 流水 线 ， 直 到 三 者 所 需 资 源 都 可 用 。 

© 分 配器 要 为 微 操作 在 重 排序 缓冲 器 (reorder buffer, ROB) 中 分 配 一 项 。 此 ROB 共有 126 
项 ， 每 项 跟踪 一 个 微 操作 执行 过 程 中 的 完成 状况 。? 

© 分 配器 要 为 微 操作 的 结果 数据 在 128 个 整数 或 浮 点 寄存 器 组 中 分 配 一 项 ， 以 及 可 能 为 流 
水 线 中 的 装载 (可 多 达 48 个 ) 和 保存 (可 多 达 24 个 ) 微 操作 分 配 一 个 装载 或 保存 组 
冲 器 。 

。 分 配器 要 为 微 操 作 在 调度 器 前 沿 的 两 个 微 操 作 队列 中 的 一 个 分 配 队 列 项 。 

ROB 是 一 个 环形 缓冲 器 ， 能 保持 多 达 126 个 的 微 操 作 ， 并 含有 128 个 硬件 寄存 器 。 每 个 缓冲 
器 项 由 下 列 字 段 组 成 。 

。 状态 (State): 指示 此 微 操作 是 否 已 被 调度 、 派 发 、 完 成 执行 、 回 收 (retirement) 就 

绪 等 。 

o 存储 器 地 址 (Memory Address): 产生 此 微 操 作 的 Pentium 4 指令 地 址 。 

© 微 操 作 (Micro -op) : 实际 的 操作 。 

© 别名 寄存 器 (Alias Register): 若 微 操作 引用 了 机 器 体系 结构 16 个 寄存 器 的 某 一 个 ， 则 此 

字段 将 该 引用 重 定向 到 128 硬件 寄存 器 的 某 一 个 。 

微 操 作 按 序 进 入 ROB ， 然 后 由 它 出 发 去 排队 、 被 调度 、 被 派发 以 及 去 执行 ， 这 些 都 将 是 乱 
序 的 。 最 后 ROB 的 微 操作 登记 项 要 按 序 回 收 。 为 实现 按 序 回收 ， 已 完成 的 微 操 作 项 打上 回收 就 
绪 标志 。 然 后 由 最 早 微 操 作 最 先 回收 的 顺序 回收 这 些 已 标记 的 微 操 作 。 

2. 寄存 器 重 命名 

在 寄存 器 重 命名 (register renaming) Be ( 见 图 14-9e) 将 对 16 个 体系 结构 寄存 器 (8 个 浮 点 
寄存 器 加 上 EAX, EBX, ECX, EDX, ESI, EDI, EBP, ESP) 的 引用 重新 映射 到 128 个 物理 寄 
存 器 。 这 样 ， 就 解除 了 由 体系 结构 寄存 器 数量 有 限 引 起 的 虚假 数据 相关 性 ， 与 此 同时 仍 保留 了 真 
实数 据 相关 性 ( 写 后 读 ，RAW )。 





O 关于 重 排序 缓冲 器 的 介绍 请 见 附录 I。 
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3. 微 操 作 排 队 

在 资源 分 配 和 寄存 器 重 命名 之 后 ， 微 操作 进入 流水 线 的 第 9 Bt: 微 操作 排队 (micro - op 
queuing) ， 见 图 14-9f。 微 操作 被 放 入 两 个 队列 之 一 ， 然 后 保持 在 那里 直到 调度 器 去 取出 它们 。 两 
个 队列 一 个 用 于 存储 器 操作 (装载 和 保存 ) ， 一 个 用 于 不 涉及 存储 器 访问 的 其 他 微 操作 。 每 个 队 
列 遵循 先进 先 出 (FIFO0) 规则 ， 但 队列 间 不 维护 一 个 次 序 。 也 就 是 说 ， 一 个 微 操 作 是 否 出 队 与 
另 一 队列 的 微 操作 没有 次 序 关系 ， 这 给 调度 器 提供 了 更 大 的 灵活 性 。 

4. 微 操作 调度 和 派发 

调度 器 〈 见 图 14-9g) 负责 由 队列 取出 微 操作 并 派发 它们 去 执行 。 调 度 器 查找 那些 其 状态 指 
明 已 具备 自己 全 部 操作 数 的 微 操 作 ， 若 它 所 需 的 执行 单元 可 用 ， 则 调度 器 取出 此 微 操 作 ， 并 将 它 
派发 到 相应 的 执行 单元 ( 见 图 14-9h) 。 每 周期 能 派发 多 达 6 个 的 微 操作 。 如 果 多 个 微 操作 要 使 
用 同一 个 执行 单元 ， 调 度 器 将 按 队列 顺序 逐个 派发 它们 。 这 也 是 一 种 FIFO 规则 ， 偏 向 按 序 执行 ; 
但 此 时 指令 流 已 被 相关 性 和 分 支 重新 排列 了 ， 实 际 上 它 已 是 乱 序 了 。 

调度 器 有 4 个 端口 与 执行 单元 连接 。 端 口 0 用 于 整数 和 浮 点 运算 ， 但 简单 整数 运算 不 在 其 
内 ， 端 口 1 用 于 简单 整数 运算 和 分 支 预测 失误 处 理 。 另 外 ， 几 个 MMX 执行 单元 有 的 在 端口 0， 
有 的 在 端口 1， 余 下 的 两 个 端口 分 别 用 于 存储 器 装载 和 保存 。 


14.3.3 ”整数 和 浮 点 执行 单元 


整数 和 浮 点 寄存 器 组 是 执行 单元 待 完成 操作 的 数据 源 之 一 ( 见 图 14-9i) 。 执 行 单 元 由 寄存 器 
组 以 及 Ll 数据 cache 取出 所 需 的 值 。 一 个 单独 的 流水 线 阶 段 ( 见 图 14-9j) 专门 用 于 计算 标志 
ME, HE), 这些 值 一 般 都 是 分 支 指令 所 需要 使 用 的 值 。 

下 一 个 流水 线 阶段 完成 分 支 检 查 ( 见 图 14-9k) ， 它 将 分 支 的 实际 结果 与 预测 进行 比较 。 在 
最 后 的 驱动 (drive) 阶段 期 间 实现 分 支 检 查 结果 ( 见 图 14-91) 。 如 果 预 测 是 错 的 ， 那 么 在 各 个 
阶段 正在 进行 的 微 操作 必须 从 流水 线 中 清除 掉 。 正 确 的 目标 地 址 提供 给 分 支 预测 器 〈branch pre- 
dictor) ， 从 而 由 新 的 目标 地 址 重新 启动 整个 流水 线 。 


14.4 ARM CORTEX-A8 


ARM 体系 结构 最 近 的 实现 已 经 开始 在 指令 流水 线 中 采用 超标 量 技术 。 在 本 节 中 ， 我 们 将 集 
中 讨论 ARM Cortex - A8 ， 它 提供 了 一 个 基于 RISC 的 超标 量 设 计 的 很 好 实例 。 

Cortex-A8 在 ARM 系列 处 理 器 中 被 称 为 是 应 用 处 理 器 。ARM 公司 的 应 用 处 理 器 是 指 那些 运 
行 复杂 操作 系统 的 做 入 式 处 理 器 ， 它 们 主要 的 应 用 是 无 线 通 信 ， 消 费 电 子 以 及 图 像 处 理 等 。Cor- 
tex-A8 的 目标 定位 于 各 种 移动 和 消费 电子 应 用 ， 包 括 手 机 、 机 顶 盒 、 游 戏 机 以 及 汽车 导航 /娱乐 
系统 。 

图 14-10 显示 了 Cortex-A8 处 理 器 的 逻辑 结构 ， 突 出 了 其 中 各 个 功能 单元 之 间 的 指令 流 。 主 
要 的 指令 流 在 3 个 功能 单元 之 间 ， 这 3 个 功能 单元 实现 了 一 个 有 13 个 阶段 ， 按 序 发 射 的 双流 水 
线 。Cortex 设计 人 员 决 定 采 用 按 序 发 射 是 为 了 使 所 需 的 功 耗 保持 最 低 。 乱 序 发 射 和 完成 需要 大 量 
的 逻辑 电路 来 实现 ， 从 而 消耗 更 多 的 电能 。 

图 14-11 显示 了 Cortex-A8 主流 水 线 的 详细 结构 。Cortex-A8 另外 还 有 一 个 单独 的 SIMD ( 单 
指令 多 数据 ，single-instruction-multiple-data) 单元 。 该 单元 被 实现 为 一 条 10 阶段 的 流水 线 。 


14.4.1 “指令 取 指 单元 


指令 取 指 单元 (instruction fetch unit) 预测 指令 流 ， 从 Ll 指令 高 速 缓存 中 取 指 ， 并 把 取 来 的 
指令 放 到 缓冲 器 中 ， 以 便 译 码 流水 线 对 指令 进行 译 码 。L1 指令 高 速 缓存 包含 在 指令 取 指 单元 中 。 
由 于 流水 线 中 允许 有 若干 未 确定 的 分 支 指令 ， 因 此 指令 取 指 是 推测 性 的 。 这 意味 着 取 来 的 指令 
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13 阶 段 的 整数 流水 线 
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图 14-10 ARM Cortex-A8 处 理 器 的 结构 图 


不 一 定 会 被 执行 。 代 码 流 中 的 分 支 指令 和 发 生 异 常 的 指令 会 导致 流水 线 清空 ,丢弃 当前 取 来 的 
指令 。 指 令 取 指 单元 每 周期 可 以 取 来 多 达 4 条 指令 ， 取 指 操 作 经 过 如 下 这 些 阶段 : 

FO 地 址 生成 单元 (Address Generation Unit, AGU) 生成 一 个 新 的 虚拟 地 址 。 通 常 这 个 地 
址 是 上 一 个 地 址 的 顺序 后 继 地 址 。 它 也 可 以 是 分 支 转移 目标 地 址 ， 该 地 址 由 分 支 预测 器 对 前 一 
条 指令 的 预测 而 产生 。F0 不 作为 一 个 阶段 计 入 13 阶段 流水 线 ， 因 为 ARM 处 理 器 传统 上 把 指令 
高 速 缓存 访问 当 作 流 水 线 的 第 一 阶段 。 

Fl 计算 得 到 的 地 址 用 于 从 Ll 指令 高 速 缓存 中 取 指 。 与 此 同时 ,该 地 址 也 用 于 访问 分 支 预 
测 阵列 ， 以 便 确定 下 一 个 取 指 地 址 是 否 应 该 基于 分 支 预 测 产生 。 

F3 取 来 的 指令 被 放 到 指令 队列 中 。 如 果 一 条 指令 引起 了 分 支 预 测 动 作 ， 那 么 新 的 目标 地 
址 会 被 送 到 地 址 生成 单元 。 

为 尽量 减少 由 较 深 流水 线 带 来 的 较 大 转移 开销 ，Cortex-A8 处 理 器 实现 了 一 个 两 级 全 局 分 支 
预测 器 。 该 预测 器 由 转移 目标 缓冲 器 (Branch Target Buffer, BTB) 和 全 局 历史 缓冲 器 (Global 
History Buffer, GHB) 组 成 。 这 些 数 据 结 构 在 指令 取 指 的 同时 被 并 行 访问 。BTB 指出 当前 取 指 地 
址 是 否 会 是 一 个 分 支 指令 ， 并 给 出 对 应 的 分 支 转移 目标 地 址 。BTB 包含 512 项 。 如 果 取 指 地 址 与 
其 中 一 项 匹配 ， 就 触发 一 个 分 支 预测 动作 ， 并 将 使 用 到 CHB, GHB 包含 4096 个 2 位 的 计数 器 。 
这 些 计 数 器 记录 了 分 支 转移 的 方向 及 强度 信息 。GHB 使 用 最 近 10 次 分 支 转 移 方向 的 一 个 10 位 
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FO Fl F2 DO DI D2 D3 D4 


重 放 (Replay) 














c) 指 令 执行 和 装载 /保存 流水 线 
图 14-11 ARM Cortex-A8 整数 流水 线 


历史 记录 和 PC 中 的 4 位 一 起 作为 索引 。 除 了 动态 分 支 预测 器 之 外 ， 取 指 单元 还 使 用 了 一 个 返回 
栈 ， 来 预测 子 过 程 返回 地 址 。 返 回 栈 有 8 个 32 位 的 项 ， 每 项 保存 了 一 个 连接 寄存 器 r14 中 的 值 ， 
以 及 调用 函数 的 ARM 指令 或 压缩 (Thumb) 指令 状态 。 当 一 个 返回 类 型 指令 被 预测 为 要 发 生 转 
移 时 ， 返 回 栈 就 提供 最 后 被 压 人 栈 的 地 址 和 状态 。 

指令 取 指 单元 可 以 取 指 和 入 队 多 达 12 条 指令 ， 并 能 在 同一 时 间 发 射 两 条 指令 到 译 码 单元 。 
指令 队列 使 得 指令 取 指 单元 能 够 先 于 整数 流水 线 其 他 阶段 而 预 取 指令 ， 形 成 一 批 积压 的 指令 等 
待 译 码 。 


14.4.2 ”指令 译 码 单元 


指令 译 码 单元 对 所 有 的 ARM 指令 和 压缩 指令 进行 译 码 并 排序 。 译 码 单元 有 一 个 双流 水 线 结 
构 ， 称 为 流水 线 0 和 流水 线 1。 这 样 在 同一 时 间 ， 可 以 有 两 条 指令 通过 译 码 单元 。 指 令 译 码 单元 
发 出 两 条 指令 时 ， 流 水 线 0 总 是 包含 了 程序 顺序 中 靠 前 的 那 条 指令 。 这 意味 着 如 果 流 水 线 0 中 的 
指令 不 能 发 射 的 话 ， 那 么 流水 线 1 中 的 指令 也 不 会 发 射 。 一 旦 发 射 所 有 被 发 射 指令 按 序 进 入 到 
执行 流水 线 ， 并 在 执行 流水 线 末尾 把 结果 写 人 到 寄存 器 组 中 。 这 种 按 序 发 射 ， 按 序 完 成 的 方式 避 
免 了 WAR 冒险 ， 同 时 能 直接 记录 WAW 冒险 和 从 流水 线 清空 条 件 中 恢复 。 这 样 ， 指 令 译 码 单元 
主要 的 考虑 就 是 如 何 避 免 RAW 冒险 了 。 

每 条 指令 将 通过 如 下 5 个 阶段 的 操作 。 

DO 压缩 指令 被 解压 缩 到 32 位 的 ARM 指令 。 初 始 的 译 码 功能 被 执行 。 
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D1 继续 完成 指令 译 码 功能 。 

D2 这 一 阶段 把 译 码 后 的 指令 写 和 等待/ 重 放 指 令 队 列 ， 并 从 等 待 / 重 放 队列 中 读 出 指令 送 
往 下 一 阶段 。 

D3 ”这 一 阶段 包含 了 指令 调度 逻辑 。 其 中 一 个 记分 牌 根据 静态 调度 技术 ”预测 寄存 器 的 可 用 
性 。 本 阶段 同时 检查 各 种 情况 的 冒险 。 

D4 ”完成 最 后 的 译 码 ， 产 生 整 数 执行 及 装载 /保存 单元 需要 的 所 有 控制 信号 。 

在 最 开始 的 两 个 阶段 ， 将 确定 指令 类 型 、 源 操作 数 和 目的 操作 数 ， 以 及 指令 的 资源 需求 。 
ARM 指令 中 有 一 些 称 为 多 周期 指令 的 不 常 使 用 的 指令 。D1 阶段 会 把 这 些 指 令 分 开 成 为 多 个 指令 
操作 码 ， 这 些 指令 操作 码 将 被 分 别 排序 通过 执行 流水 线 。 

Tff (pending) 队列 起 到 两 个 作用 。 首 先 ， 它 避免 来 自 D3 阶段 的 流水 线 停顿 信号 进一步 扩 
散 从 而 影响 流水 线 的 运行 。 指 令 在 D3 阶段 进行 静态 调度 ， 调 度 是 基于 对 源 操 作 数 何 时 可 用 的 预 
测 。 存 储 系统 的 任何 停顿 会 导致 一 个 不 少 于 8 个 周期 的 延迟 。 这 个 最 小 8 周期 的 延迟 对 应 于 Ll 
装载 缺失 时 ， 从 L2 高 速 缓存 接收 数据 所 需 的 最 少 可 能 周期 数 。 表 14-2 给 出 了 因为 存储 系统 停顿 
可 能 导致 指令 重 放 (replay) 的 最 常见 的 情况 。 


表 14-2 Cortex-A8 存储 系统 停顿 对 指令 时 序 的 影响 
E 放 事 件 延 R 说 明 


1. Ll 数据 高 速 缓存 的 装载 指令 缺失 

2. 接 下 来 向 L2 数据 高 速 缓存 发 出 访问 请 求 

3. 如 果 [2 数据 高 速 缓存 也 发 生 缺 失 ， 那 么 会 导致 第 二 
装载 数据 缺失 8 周期 个 重 放 。 停 顿 周 期 数 取决 于 外 部 系统 存储 器 的 时 序 。 当 
L2 高 速 缓存 缺失 时 ， 接 收 关键 字 所 需 的 最 小 时 间 大 约 是 


25 个 周期 ， 不 过 这 个 时 间 可 能 会 因为 L3 高 速 缓存 的 延迟 
而 更 长 


1. 由 于 Ll TLB 缺失 导致 的 页 表 查 找 操作 需要 24 个 周 
期 的 延迟 ， 如 果 要 查找 的 地 址 转换 表 项 在 L2 高 速 缓存 中 
数据 TLB 缺失 24 周期 的 话 

2. 如 果 要 查找 的 地 址 转换 表 项 不 在 [2 高 速 缓存 中 ， 停 
顿 的 周期 数 将 取决 于 外 部 系统 存储 器 的 时 序 


1. 保存 指令 的 缺失 不 会 导致 任何 停顿 ， 除 非 保存 缓冲 
WT 
可 7 “清空 É 
保存 缓冲 满 om tall 2， 当 保存 缓冲 满 的 时 候 ， 延 迟 至 少 是 8 个 周期 。 如 果 
清空 保存 缓冲 中 某 些 项 的 时 间 花 费 较 多 ， 那 么 延迟 时 间 就 
会 更 长 


























1、 如 果 装 载 指令 使 用 的 地 址 是 未 对 齐 的 ， 并 且 整 个 访 
6 s 问 不 包含 在 128 位 的 界限 内 ， 那 么 延迟 是 8 个 周期 

te Aa > 8 后 
未 对齐 的 装载 或 保存 请 求 | 8 周期 2. 如 果 保 存 指令 使 用 的 地 址 是 未 对 齐 的 ， 并 且 整 个 访 
问 不 包含 在 64 位 的 界限 内 ， 那 么 延迟 是 8 个 周期 











为 了 处 理 这 些 停顿 ， 指 令 译 码 单元 使 用 了 一 个 恢复 机 制 ， 该 机 制 先 清空 执行 流水 线 中 所 有 
的 后 续 指 令 ， 然 后 重新 发 射 ( 重 放 ) 它们 。 为 支持 重 放 ， 指 令 在 发 射 之 前 会 被 拷贝 到 重 放 队列 
中 ， 直 到 它们 写 回 了 它们 的 执行 结果 并 完成 ， 才 会 从 重 放 队列 中 删除 。 如 果 重 放 信 号 被 置 位 ， 指 
令 就 从 重 放 队 列 中 读 出 ， 并 重新 放 入 流水 线 。 

译 码 单元 并 行 地 发 射 两 条 指令 到 执行 单元 ， 除 非 译 码 单元 碰 到 了 发 射 限制 情况 。 表 14-3 显 
示 了 最 常见 的 限制 情况 。 





O 记分 牌 技术 的 讨论 请 见 附录 [ 。 
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表 14-3 Cortex-A8 双 发 射 的 限制 































































限制 类 型 说 明 示 例 周 期 限 制 
装载 /保存 只 有 一 条 LS (装载 /保存 ) 流水 线 。 每 | LDR r5, [6] 1 
资源 冒险 个 时 钟 周期 只 能 发 射 一 条 LS 指令 。 该 指 | STR x17, [18] 2 等 待 装载 /保存 单元 
令 可 以 进入 流水 线 0 或 流水 线 1 MOV 9, r10 2 双 发 射 是 可 能 的 
ADD rl, 2, 3 1 
乘法 资源 | 只 有 一 条 乘法 流水 线 ， 而 且 只 在 流水 线 MUL 4. 5. 16 5 等 待 流水 线 0 
冒险 Orp MUL 17, 18, 9 3 等 待 乘法 单元 
每 个 时 钟 周 期 只 能 执行 一 条 分 支 指令 。 «i j 
分 支 资源 | 该 分 支 指令 可 进入 流水 线 0 或 流水 线 1。 a 
l : BEQ 0x1000 2 等 待 分 支 
冒险 aaa PC 寄存 器 的 ADD rl, 2, 3 2 双 发 射 是 可 能 的 
AW 
Seem: JA peng | MOVEQ rl, 2 | 1 
数据 输出 | 长 射 。 有 相同 目标 的 情况 可 能 发生 在 条 | VOELS | 。 2 | 因 答 出 相关 而 等 
冒险 件 码 的 执行 中 LDR r5, [16] 2 双 发 射 是 可 能 的 
即使 指令 所 需 的 数据 还 未 就 绪 ， 指 令 也 | ADD rl, 12, 3 1 
数据 源 冒 险 | 可 以 被 发 射 。 此 时 将 检查 调度 表 ， 查 看 源 | ADD 4, rl, 16 等 待 口 
操作 数 需求 和 各 个 流水 级 结果 LDR r7, [r4] 4 等 待 4A 两 个 周期 
MOV rl, 2 1 等 待 流水 线 0， 传送 A 
多 周期 指令 必须 发 射 到 流水 线 0 中 。 而 | TW ue | 2 | mee a 
A A = 40K gi 
多 周期 指令 cia 次 重复 执行 时 LDM (周期 3) 4 HG — Uc HEE LE 
射 是 可 能 的 
ADD 18, 19, rl0 4 











14.4.3 ”整数 执行 单元 


指令 执行 单元 由 两 个 对 称 的 算术 逻辑 单元 (ALU) 流水 线 ， 其 中 一 个 服务 于 装载 /保存 指令 
的 地 址 生成 器 ， 以 及 乘法 流水 线 组 成 。 执 行 流水 线 也 进行 寄存 器 写 回 操作 。 下 面 是 指令 执行 单元 
的 功能 : 

© 执行 所 有 的 整数 ALU 和 乘法 操作 ， 包 括 标志 的 生成 。 

。 为 装载 和 保存 指令 生成 虚拟 地 址 。 如 果 需 要 ， 生 成 写 回 基 值 (base write-back value), 

e 为 保存 指令 提供 格式 化 后 的 数据 ， 并 转发 数据 及 标志 。 

© 处 理 分 支 以 及 其 他 对 指令 流 的 改变 ， 并 计算 指令 条 件 码 。 

对 于 ALU 指令 ， 可 以 使 用 两 条 流水 线 的 任何 一 条 ， 其 执行 包括 如 下 阶段 : 

EO 访问 寄存 器 组 。 对 于 两 条 指令 ， 最 多 需要 从 寄存 器 组 读 出 6 个 寄存 器 值 。 

E1 如 果 需 要 的 话 ， 桶 移 位 器 ( 见 图 12-25) 执行 移 位 操作 。 

E2 ALU ( 见 图 12-25) 执行 算术 逻辑 运算 。 

ES ”如 果 需 要 的 话 ， 该 阶段 完成 某 些 ARM 数据 处 理 指令 所 使 用 的 饱和 运算 。 

E4 如果 控制 流 发 生 任何 改变 ,包括 分 支 预 测 失 误 、 异 常 以 及 存储 系统 重 放 ， 那 么 该 阶段 
保证 这 些 情况 被 优先 处 理 。 

E5 ARM 指令 的 执行 结果 被 写 回 到 寄存 器 组 。 

使 用 乘法 单元 ( 见 图 12-25) 的 指令 被 放 人 到 流水 线 0 中 处 理 。 乘 法 操作 在 El 阶段 到 E 阶 
段 进 行 ， 乘 积累 加 在 E4 阶段 执行 。 

装载 /保存 流水 线 与 整数 流水 线 并 行 运行 。 装 载 / 保 存 流 水 线 包 括 如 下 阶段 : 

E1 存储 地 址 从 基 址 和 变 址 寄存 器 产生 。 

EQ 地 址 被 用 于 高 速 缓存 阵列 的 访问 。 
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E3 对 于 装载 指令 ， 数 据 被 返回 并 被 格式 化 ， 以 便 转发 给 ALU 或 乘法 单元 。 对 于 保存 指令 ， 


数据 被 格式 化 ， 以 便 写 人 到 高 速 缓存 中 。 
E4 如果 需 要 ， 对 L2 高 速 缓存 进行 更 新 。 
E5 ARM 指令 的 执行 结果 被 写 回 到 寄存 器 组 。 


表 14-4 显示 了 一 个 示例 代码 片段 ， 并 指出 了 处 理 器 可 能 会 如 何 来 调度 它 。 


表 14-4 Cortex-A8 整数 流水 线 的 示例 双 发 射 指 令 序 列 











时 JF 





说 明 









































1 0x00000ed0 BX rl4 双 发 射流 水 线 0 
1 0x00000ee4 CMP 10, #0 | eke 1 
2 0x00000ee8 MOV 33, #3 双 发 射流 水 线 0 
2 0x00000eec MOV 10, #0 双 发 射流 水 线 1 
3 0x00000efm STREQ r3, [rl, #0] 双 发 射流 水 线 0， 了 蕊 直到 E3 阶段 才 需 要 
3 CMP 12, #4 双 发 射流 水 线 1 

















LDRLS pc, [ pe, 12, LSL, #2] 


单 发 射流 水 线 0，+1 周期 装载 到 PC， 自 LSL #2 
后 无 额外 移 位 周期 








MOV 10, #1 


双 发 射 ， 流 水 线 1 中 是 装载 的 第 2 次 迭代 








B{pe} +8 
STR 10, [rl, #0] 






#0xB8 双 发 射流 水 线 0 
双 发 射流 水 线 1 











LDR pc, [r13], #4 





单 发 射流 水 线 0，+1 周期 装载 到 PC 
















































ADD r2, 4, #0xc 双 发 射 ， 流 水 线 1 中 是 装载 的 第 2 次 迭代 
LDR 10, [16, #4] WAH Hi KA 0 
9 0x00000184 MOV rl, #0xa 双 发 射流 水 线 
单 发 射流 水 线 0: 10 在 E3 阶段 产生 ， 而 El Br 
12 0x00000188 LDR 0, [10, #0] 段 就 需要 ， 因 此 +2 周期 停顿 
单 发 射流 水 线 0， 原 因 是 装载 /保存 资源 冒险 ， 
a coer SUURI, Lh 0 JA 10 在 E3 阶段 产生 并 被 使 用 之 后 无 额外 延迟 
14 0x00000190 | LDR 10, [r4, #0xc] 单 发 射流 水 线 0， 原 因 是 装载 /保存 资源 冒险 
多 次 装载 操作 ， 第 1 周期 装载 路， 第 2 周期 装 
15 0x00000194 LDMFD rl3!, {r4-16, r14} Bs 6, 83 周期 装载 14, E3 周期 















B{ pc} +0xda8 








#0xf40 双 发 射流 水 线 1， 其 中 LDM 指令 处 于 第 
3 周期 





ADD 10, 10, #2 ARM 






ADD 10, rl, 0 ARM 





14.4.4 SIMD 和 浮 点 流水 线 


单 发 射流 水 线 0 


单 发 射流 水 线 0， 由 于 m H E2 才能 产生 ， 却 同 
时 在 E2 阶段 需要 用 到 ， 因 此 无 法 进行 双 发 射 








所 有 的 SIMD 和 浮 点 指令 都 通过 整数 流水 线 并 由 一 个 单独 的 10 阶段 流水 线 处 理 ( 见 图 
14-12) 。 这 个 称 为 NEON 的 单元 ， 能 处 理 压缩 的 (packed) SIMD 指令 ,并 提供 了 两 种 类 型 的 浮 
点 处 理 支 持 。 根 据 实际 实现 ， 该 单元 可 能 带 有 一 个 向 量 浮 点 (vector floating-point, VFP) 协 处 理 
器 ， 负 责 完成 遵循 IEEE 754 标准 的 浮 点 操作 。 如 果实 际 实 现 中 不 带 这 个 协 处 理 器 ， 那 么 会 有 一 


条 单独 的 乘法 和 加 法 流水 线 来 实现 浮 点 运算 。 
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NEON 寄 存 器 写 回 


整数 ALU、 
MAC 和 SHIFT 
流水 线 


非 IEEE 标 准 
的 浮 点 乘法 
流水 线 
Re R iiin 
流水 线 











IEEE 单 / 双 精 
带 对 齐 的 装载 度 向 量 浮 点 协 
和 保存 处 理 器 









页 的 8 项 的 
Mux LI1/ s 装载 /保存 


图 14-12 ARM Cortex-A8 的 NEON 和 浮 点 流水 线 





14.5 ”推荐 的 读物 


[SHEN05] 和 [OMON99] 两 本 书 论述 了 超标 量 设计 。 这 一 主题 的 相当 好 的 综述 文章 是 [SMIT95] 和 
[SIMA97] 。[JOUP89a] 考察 了 指令 级 并 行 性 ， 查 看 了 最 大 化 并 行 度 的 各 种 技术 ， 并 使 用 模拟 比较 了 超标 量 
和 超级 流水 线 方法 。[ SIMA04] 、[ PATT01] 和 [MOSHO1] 是 三 篇 介绍 超标 量 设计 的 近期 文章 。 

[POPE91] 提供 了 对 一 个 推荐 的 超标 量 机 器 的 详细 介绍 ， 还 提供 了 关于 乱 序 指令 策略 设计 考虑 的 一 
很 有 益 的 指导 。 其 他 对 推荐 系统 的 考察 可 在 [KuGA91] 中 找到 , 这 篇 文章 提出 并 考虑 了 超标 量 实现 的 最 重 
要 的 设计 观点 。[ LEE91 ] 考察 了 能 用 来 增强 超标 量 性 能 的 软件 技术 。[ WALL91] 是 一 个 关于 超标 量 处 理 器 
中 能 开发 指令 级 并 行 性 范围 的 有 意义 研究 。 

[INTE04] HJH I 提供 了 对 Pentium 4 流水 线 的 一 般 性 描述 。 更 详细 的 了 解 请 参见 [INTE01a] 和 
[INTE01b] 。 另 外 还 有 [FOG08b] 。 

[JOHN08] 和 [ARM08a] 提供 了 对 ARM Cortex-A8 流水 线 的 详细 介绍 。[ RICH07] 是 一 个 很 好 的 概述 。 















ARM08a ARM Limited. Cortex-A8 Technical Reference Manual. ARM DDI 0344E, 
2008. www.arm.com 

FOG08b Fog, A. The Microarchitecture of Intel and AMD CPUs. Copenhagen University 
College of Engineering, 2008. http://www.agner.org/optimize/ 

HINTO1 Hinton, G., et al. “The Microarchitecture of the Pentium 4 Processor.” Intel 
Technology Journal, Q1 2001. http://developer.intel.com/technology/itj/ 

INTE0ia Intel Corp. Intel Pentium 4 Processor Optimization Reference Manual. Docu- 
ment 248966-04 2001. http://developer.intel.com/design/Pentium4/documentation. 
htm. 

INTE0ib Intel Corp. Desktop Performance and Optimization for Intel Pentium 4 
Processor. Document 248966-04 2001. http://developer.intel.com/design/Pentium4/ 
documentation.htm. 

INTE04a Intel Corp. [A-32 Intel Architecture Software Developer’s Manual (4 volumes). 


Document 253665 through 253668. 2004. http://developer.intel.com/design/Pentium4/ 
documentation. htm. 
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146 关键 词 、 思 考题 和 习题 


关键 词 

antidependency: 反 相 关 性 

branch prediction; 分 支 预测 
commit; 托 收 ( 或 提交 ) 

flow dependency: 流 相关 性 
in-order issue: 按 序 发 射 

in-order completion; 按 序 完成 
instruction issue: 指令 发 射 
instruction-level parallelism; 指令 级 并 行 性 
instruction window: 指令 窗口 
machine parallelism: 机 器 并 行 性 
micro-operations: 微 操 作 
micro-ops: 微 操 作 

out-of-order completion; 乱 序 完成 


JOHN08 John, E., and Rubies J RE Chips and Systems. Boca Raton, FL: CRC 


vailable Instruction-Level Parallelism for Superscalar 
oceedings, Third International Conference on 


Lee, R: Kwok w 







iges ie Ned — April 1989. 


out-of-order issue; 乱 序 发 射 

output dependency: 输出 相关 性 
procedural dependency; 过 程 相关 性 
read-write dependency: 读 写 相关 性 
register renaming: 寄存 器 重 命名 
resource conflict; 资源 冲突 

retire; 回收 

superpipelined: 超级 流水 线 式 
superscalar: 超标 量 

true data dependency: 真 数据 相关 性 
write-read dependency: 写 读 相 关 性 
write-write dependency: 写 写 相关 性 
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思考 题 
14.1 ”处理 器 超标 量 设计 方法 的 本 质 特 征 是 什么 ? 
14.2 ”超标 量 与 超级 流水 线 的 区 别 是 什么 ? 
14.3 . 什么 是 指令 级 并 行 性 ? 
14.4 简要 定义 如 下 术语 : 

© 真 数据 相关 性 

。 过 程 相关 性 

。 资源 冲突 

。 输出 相关 性 

© 反 相 关 性 
14.5 ”指令 级 并 行 性 与 机 器 并 行 性 有 何 区 别 ? 
14.6 ” 列 出 并 简要 定义 超标 量 指令 的 三 种 发 射 策 略 。 
14.7 ”指令 窗口 的 用 途 是 什么 ? 
14.8 ”什么 是 寄存 器 重 命名 ? 它 的 目的 何在 ? 
14.9 ”超标 量 机 器 组 织 的 关键 部 件 是 什么 ? 


习题 

14.1 ” 当 超 标量 处 理 器 采用 乱 序 完成 时 ， 中 断 处 理 后 的 恢复 复杂 化 了 ， 因 为 检测 到 异常 的 条 件 可 能 会 是 一 条 
乱 序 完成 指令 的 结果 。 程 序 不 能 以 异常 指令 之 后 的 顺序 指令 来 重新 启动 ， 因 为 该 后 续 指令 可 能 已 完成 
过 ， 如 果 这 样 做 ， 该 指令 就 执行 两 次 了 。 请 推荐 一 种 机 制 来 处 理 这 种 情况 。 

14.2 ”考虑 如 下 指令 序列 ， 它 的 句法 是 : 操作 码 之 后 是 一 个 目标 寄存 器 ， 再 其 后 是 一 个 或 两 个 源 寄存 器 : 


0 ADD R3, R1, R2 
1 LOAD R6, [R3] 
2 AND R7, R5,3 
3 ADD R1, R6, RO 
4 SRL R7, RO, 8 
5 OR R2, R4, R7 
6 SUB R5, R3, R4 
7 ADD RO, R1, R10 
8 LOAD R6, [R5] 
9 SUB R2, R1, R6 
10 AND R3, R7,15 


假定 使 用 4 段 流水 线 : 取 指 、 译 码 /发 射 、 执 行 、 写 回 ， 并 假定 除 执行 段 以 外 ， 所 有 流水 段 都 花费 1 
个 时 钟 周期 。 对 于 简单 的 算术 和 逻辑 指令 ， 执 行 段 花费 1 个 时 钟 周 期 ; 但 对 于 由 存储 器 的 装载 
(LOAD) ， 执 行 段 要 花费 5 个 时 钟 周期 。 

若 此 简单 的 标量 流水 线 具有 乱 序 执行 能 力 ， 则 对 于 前 7 条 指令 我 们 能 构成 下 表 : 





指令 编号 取 指 译 码 执行 写 回 
0 0 1 2 3 
1 1 2 4 9 
2 2 3 5 6 
3 3 4 10 11 
4 4 5 6 7 
5 5 6 8 10 
6 6 7 9 12 


表 中 4 个 流水 段 下 的 项 ， 指 示 每 条 指令 在 每 个 阶段 开始 的 时 钟 周期 。 在 这 个 指令 序列 中 ， 第 二 个 ADD 
指令 (指令 3 的 一 个 操作 数 6 依赖 于 LOAD 指令 〈 指 令 1) ) 。 因 为 LOAD 指令 的 执行 需要 5 个 时 钟 周 
期 ， 发 射 逻辑 在 2 个 时 钟 周 期 后 遇 到 这 条 相关 的 ADD 指令 时 ， 它 必须 延迟 3 个 时 钟 周 期 再 发 射 ADD 
指令 去 执行 。 使 用 它 的 乱 序 完成 能 力 ， 处 理 器 在 时 钟 周期 4 停止 指令 3 发 射 时 ， 转 而 发 射 下 面 3 条 独 
立 的 指令 并 使 它们 分 别 以 时 钟 6、8、9 进入 执行 段 。 在 时 钟 9，LOAD 指令 结束 后 ， 相 关 的 ADD 指令 
就 能 在 时 钟 10 被 发 射 去 执行 了 。 
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(a) 请 对 上 述 的 11 条 指令 完成 此 表 。 

(D) 若 没有 乱 序 完成 能 力 ， 请 重 做 此 表 ; 乱 序 完成 能 力 节 省 了 多 少时 间 ? 

(c) 假定 它 是 一 个 超标 量 实现 ， 能 每 流水 段 同时 处 理 两 条 指令 ， 请 重 做 此 表 。 
14.3 ”考虑 如 下 汇编 语言 程序 : 


Il: Move R3, R7 /R3 € (R7)/ 

I2: Load R8, (R3) /R8 € Memory (R3)/ 

I3: Add R3, R3, 4 /R3 & (R3) + 4/ 

I4: Load R9, (R3) /R9 € Memory (R3)/ 

I5: BLE R8, R9, L3 /Branch if (R9) > (R8)/ 


这 个 程序 包括 了 写 后 写 (WAW) 、 写 后 读 (RAW), Bia (WAR) 相关 性 ， 请 指出 。 
14.4 (a) 在 下 面 的 指令 序列 中 找到 写 后 读 相关 、 写 后 写 相 关 和 读 后 写 相关 : 


I1: R1 =100 

I2: R1 =R2 + R4 
I3: R2 =R4 - 25 
I4: R4 =R1 + R3 
I5:R1=R1 + 30 


(b) EMALE (a) 中 寄存 器 ， 消 除 相关 问 题 。 对 于 原始 寄存 器 值 的 引用 ， 在 寄存 器 引用 中 加 以 下 

标 “a” 进 行 标示 。 
14.5 考虑 图 14-13 中 所 示 的 “ 按 序 发 射 / 按 序 完 成 ”执行 序列 : 

(a) 指出 指令 12 不 能 在 第 4 周期 前 进入 执行 阶段 的 最 可 能 原因 。 如 果 采 用 “ 按 序 发 射 / 乱 序 完成 ”或 
“ 乱 序 发 射 / 乱 序 完成 ”策略 ， 能 解决 这 个 问题 么 ?如 果 能 ， 是 哪 种 策略 解决 了 这 个 问题 ? 

(b) 指出 指令 6 在 第 9 周期 前 不 能 进入 写 阶 段 的 原因 。 如 果 采 用 “ 按 序 发 射 / 乱 序 完成 ”或 “ 乱 序 
发 射 / 乱 序 完 成 ”策略 ， 能 解决 这 个 问题 吗 ? 如 果 能 ， 是 哪 种 策略 解决 了 这 个 问题 ? 

i 周期 
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图 14-13 一 个 按 序 发 射 / 按 序 完成 的 执行 序列 


14.6 图 14-14 显示 了 一 个 超标 量 处 理 器 组 织 的 例子 。 如 果 无 资源 冲突 和 数据 相关 问题 ， 处 理 器 能 每 周期 发 
射 两 条 指令 。 这 里 基本 上 有 两 条 流水 线 ， 每 条 流水 线 有 4 段 〈 取 指 、 译 码 、 执 行 、 保 存 ) ， 并 有 自己 
的 取 指 、 译 码 和 保存 单元 。4 个 功能 单元 〈 乘 法 器 、 加 法 器 、 逻 辑 单元 、 装 载 单元 ) 被 两 条 流水 线 
在 执行 段 动态 共享 。 两 个 保存 单元 能 被 两 条 流水 线 动 态 使 用 ， 取 决 于 具体 周期 时 的 可 用 性 。 这 里 还 
有 一 个 先行 窗口 (lookahead window) ， 它 有 自己 的 取 指 和 译 码 逻 辑 。 这 个 窗口 用 于 乱 序 发 射 指令 的 先 


行 查找 。 

考虑 在 此 处 理 器 上 执行 如 下 程序 : 

Il: Load R1, A /R1 & Memory (A)/ 
I2: Add R2, R1 /R2 & (R2) + R(1)/ 
I3: Add R3, R4 /R3 & (R3) + R(4)/ 
I4: Mul R4, R5 /R4 & (R4) + R(5)/ 
I5: Comp R6 /R6 & (R6)/ 

I6: Mul R6, R7 /R3 € (R3) + R(4)/ 


(a) 程序 中 存在 什么 相关 性 ? 

(b) 请 给 出 这 个 程序 在 图 14-14 的 处 理 器 上 运行 时 的 流水 线 动作 ， 使 用 类 似 于 图 14-2 的 表示 法 。 首 
先 考虑 采用 按 序 发 射 、 按 序 完 成 策略 。 

(c) 再 考虑 采用 按 序 发 射 、 乱 序 完成 策略 。 

(d) 最 后 ， 考 虑 采用 乱 序 发 射 、 乱 序 完 成 策略 。 
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14.7 图 14-15 摘自 于 一 篇 超标 量 设计 方面 的 论文 ， 请 解释 图 中 的 3 个 子 图 ， 并 定义 w、x、y Az, 


取 指 ， 译 码 ， 执行 阶段 ， 保存 ， 
从 w 一 -DT 到 xyz — LTT 到 x 
a Aw — TTT 到 y 
— 4 
一 一 到 x b) 


到 y 
从 w —— 
c) 


图 14-14 一 个 双流 水 线 的 超标 量 处 理 器 图 14-15 习题 14.7 的 图 


14.8 用 于 Pentium 4 上 的 Yeh 动态 分 支 预 测算 法 是 一 个 两 级 分 支 预 测算 法 。 第 一 级 是 最 后 n 次 转移 的 历史 。 
第 二 次 是 此 n 次 转移 最 后 出 现 s 次 独特 样式 的 转移 行为 。 可 按 如 下 方法 实现 。 程 序 中 的 每 个 条 件 分 支 
指令 在 转移 历史 表 (Branth History Table, BHT) 都 有 一 对 应 项 。 每 项 由 位 组 成 ， 它 相应 于 该 分 支 指 
令 最 后 n 次 的 执行 ; 若 i 次 转移 发 生 ， 则 i 位 置 1; FURE, Mi 位 置 0。 每 个 BHT 项 可 索引 到 一 个 
样式 表 (Pattern Table，PT) ，PT 有 2" 项 ， 每 种 可 能 的 位 样式 有 一 项 。 每 个 PT 项 由 s 位 组 成 。 这 些 
s 位 在 分 支 预测 中 的 使 用 如 在 第 12 章 所 述 的 那样 〈 例 如 ， 图 12-19) 。 在 指令 取 指 和 译 码 期 间 遇 到 一 个 
条 件 分 支 指令 时 ， 此 指令 的 地 址 用 于 取出 一 个 相对 应 的 BHT 项 ， 它 表示 该 指令 的 历史 信息 。 然 后 ， 
该 BHT 项 用 于 取出 相对 应 的 PT 项 ， 来 进行 转移 预测 。 此 分 支 指令 执行 后 ， 此 BHT 项 更 新 ， 然 后 相对 
应 的 PT 项 也 更 新 。 

(a) 测试 这 一 策略 的 性 能 时 ，Yeh 曾 尝 试 了 图 14-16 所 示 5 种 不 同 预测 方案 。 请 指出 其 中 哪 三 种 方案 
相应 于 图 12-19 和 图 12-28 所 示 的 方案 ， 并 请 描述 其 余 两 种 方案 。 

(b) 按 这 种 算法 ， 预 测 不 是 只 基于 某 条 分 支 指令 的 历史 ， 而 且 还 要 基于 匹配 该 指令 BHT 表 项 n 位 样 
式 的 所 有 转移 样式 的 最 近 历史 。 请 说 明 这 种 策略 的 原理 。 








图 14-16 习题 14.8 的 图 





第 四 部 分 控 制 器 


在 第 三 部 分 ， 我 们 集中 介绍 了 机 器 指令 以 及 每 条 指令 是 如 何 由 处 理 器 操作 执行 的 。 但 没有 
仔细 讨论 各 个 操作 是 如 何 发 生 的 ， 这 便 是 控制 单元 (Control Unit， 也 称 控制 器 ) 的 任务 。 

控制 器 是 处 理 器 中 引发 上 述 操作 的 部 分 。 控 制 器 负责 向 处 理 器 外 部 发 出 控制 信号 ， 从 而 控 
制 与 存储 器 或 LO 模块 间 的 数据 交换 ; 控制 器 还 需要 向 处 理 器 内 部 发 送 控制 信号 ， 以 在 寄存 器 间 
移动 数据 ， 并 引发 ALU 完成 指定 功能 以 及 其 他 内 部 调整 操作 。 控 制 器 的 输入 包括 指令 寄存 器 、 
标志 和 来 自 外 部 的 控制 信号 〈 例 如 中 断 信 号 等 ) 。 

第 15 章 控制 器 操作 

第 15 章 将 讨论 处 理 器 功能 是 如 何 实现 的 ， 更 明确 的 说 是 处 理 器 的 各 个 部 件 如 何在 控制 器 的 
控制 下 提供 这 些 功 能 的 。 这 一 章 将 说 明 每 个 指令 周期 实际 上 由 一 系列 微 操 作 ( micro-operation ) 
组 成 ， 这 些微 操作 产生 控制 信号 。 执 行 就 是 由 控制 信号 作用 产生 的 效果 来 完成 的 。 这 些 控制 信号 
从 控制 器 发 出 到 ALU、 寄 存 器 组 以 及 系统 互 连 结构 。 最 后 ， 本 章 给 出 了 一 种 控制 器 实现 的 方法 ， 
称 为 硬 布线 (hardwired) 实现 。 

第 16 章 微 程序 控制 

在 第 16 章 中 ， 我 们 将 看 到 如 何 实现 优雅 而 功能 强大 的 控制 器 ， 这 便 是 人 们 常 说 的 “ 微 程序 
设计 ” (microprogramming) 。 从 本 质 上 讲 ， 微 程序 语言 是 底层 编程 语言 。 每 条 处 理 器 的 机 器 指令 
将 会 翻译 成 控制 器 的 底层 指令 序列 。 这 些 底层 指令 称 为 “ 微 指令 ” (microinstruction), Ti Mea 
程 称 为 “ 微 程序 设计 ”。 本 章 还 描述 了 控制 存储 器 的 概况 ， 它 为 每 条 机 器 指令 保存 一 个 微 程序 。 
然后 ， 再 阐述 微 程序 控制 器 的 结构 和 功能 。 
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本 章 要 点 


© 一 条 指令 的 执行 涉及 一 系列 的 统称 为 周期 的 子 步骤 。 例 如 ， 一 条 指令 的 执行 可 由 取 指 、 
间接 寻 址 、 执 行 和 中 断 周 期 组 成 。 每 个 周期 又 是 由 一 系列 更 基本 的 操作 ( 称 为 微 操作 ) 
组 成 。 一 个 单一 的 微 操作 可 以 完成 寄存 器 间 的 一 次 传送 ， 寄 存 器 与 外 部 总 线 的 一 次 传送 ， 
或 一 个 简单 的 ALU 操作 。 
处 理 器 的 控制 器 完成 两 项 任务 :(1) 它 使 得 处 理 器 以 正在 运行 的 程序 所 确定 的 次 序 来 执 
行 微 操作 ; (2) 它 产 生 引起 微 操作 执行 的 控制 信号 。 
控制 器 产生 的 控制 信号 引起 逻辑 门 的 打开 与 关闭 ， 从 而 导致 寄存 器 数据 的 传送 和 ALU 的 
操作 。 

。 一 种 控制 器 的 实现 技术 是 硬 布线 技术 ， 采 用 此 技术 实现 的 控制 器 是 一 个 组 合 电路 。 当 前 

机 器 指令 支配 的 输入 逻辑 信号 被 转换 为 一 组 输出 控制 信号 。 

我 们 在 第 10 章 讲 过 ， 机 器 指令 集 很 大 程度 上 决定 了 CPU 的 功能 。 若 我 们 知道 了 机 器 指令 
集 ， 包 括 理解 每 种 操作 码 的 效果 ， 理 解 寻 址 方式 ， 以 及 知道 用 户 可 见 的 寄存 器 组 ， 也 就 知道 了 
CPU 必须 完成 的 功能 。 但 事情 还 不 止 于 此 。 我 们 必须 理解 外 部 接口 ， 这 通常 是 总 线 ， 还 要 知道 
中 断 是 如 何 处 理 的。 根据 以 上 的 推断 ， 可 以 定义 CPU 所 需 处 理 的 事项 如 下 : 

(1) 操作 (操作 码 ) 

(2) 寻 址 方式 

(3) 寄存 器 组 

(4) VO 模块 接口 

(5) 内 存 模 块 接口 

(6) 中 断 

这 个 列表 尽管 很 普通 , 但 是 相当 完整 。 第 (1) ~ (3) 项 是 由 指令 集 定义 的 ; 第 (4) ~ 
(5) 项 一 般 是 由 系统 总 线 定义 的 ; 第 (6) 项 部 分 由 系统 总 线 定义 ， 部 分 由 CPU 对 操作 系统 的 
支持 类 型 所 定义 。 

这 个 6 项 的 列表 可 以 看 作 是 对 CPU 的 功能 要 求 ， 它 们 定义 了 CPU 必须 做 什么 。 这 些 也 是 本 
书 第 二 部 分 和 第 三 部 分 的 主要 内 容 。 现 在 ， 我 们 转 到 这 些 功 能 是 如 何 完 成 的 问题 上 来 ， 更 具体 
H, CPU 的 各 个 部 件 是 如 何 受 控 来 提供 这 些 功 能 的 。 下 面 讨论 控制 CPU 操作 的 控制 器 。 


15.1 微 操 作 

我 们 已 经 看 到 ， 执 行程 序 时 ,计算 机 操作 是 由 一 系列 指令 周期 组 成 ， 每 个 周期 执行 一 条 机 器 
指令 。 当 然 ， 应 记 住 这 个 指令 周期 顺序 没 必要 等 同 于 程序 的 指令 编写 顺序 ， 因 为 存在 着 分 支 指 
令 。 这 里 我 们 所 说 的 顺序 指 的 是 指令 执行 的 时 间 顺 序 。 

进而 我 们 可 以 看 到 ， 每 个 指令 周期 又 可 以 看 作 是 由 几 个 更 小 的 单位 组 成 。 一 种 通常 的 方法 
是 分 解 为 取 指 、 间 接 、 执 行 和 中 断 ， 其 中 取 指 周期 和 执行 周期 总 是 必 有 的 。 

然而 ， 为 设计 控制 器 需要 将 此 描述 进一步 向 下 分 解 。 在 第 12 章 讨论 流水 线 时 ,我 们 已 看 到 
进一步 分 解 是 可 能 的 。 事 实 上 ， 我 们 将 会 看 到 ， 这 每 个 较 小 周期 又 由 一 系列 涉及 CPU 寄存 器 操 
作 的 更 小 步骤 组 成 ， 人 们 把 这 些 步 又 称 为 微 操 作 (micro-operation) 。“ 微 ”是 指 这 些 操作 很 微小 、 
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很 简单 。 图 15-1 描述 了 前 面 讨论 的 各 个 概念 之 间 的 关系 。 总 而 言 之 ， 一 个 程序 的 执行 是 由 指令 
的 顺序 执行 组 成 。 每 条 指令 的 执行 是 一 个 指令 周期 ， 每 个 指令 周期 由 更 短 的 子 周期 〈 如 取 指 、 
间接 、 执 行 、 中 断 ) 组 成 。 每 个 子 周期 的 完成 又 涉及 一 个 或 多 个 更 短 的 操作 ， 即 微 操 作 。 





| 


图 15-1 程序 执行 的 组 成 元 素 


微 操作 是 CPU 基本 的 或 者 说 是 原子 的 操作 。 本 节 将 考察 微 操作 ， 以 理解 任何 指令 周期 的 事 
件 是 如 何 被 描述 成 这 样 的 微 操作 序列 。 我 们 将 使 用 一 个 简单 的 例子 来 说 明 。 本 章 的 其 余部 分 用 
于 说 明 微 操 作 概 念 如 何 用 于 控制 器 设计 。 


15.1.1 取 指 周期 


首先 查看 取 指 周期 ， 它 出 现在 每 个 指令 周期 的 开始 ， 并 使 指令 从 存储 器 中 取出 。 为 便于 讨 
论 ， 我 们 假设 使 用 的 是 图 12-6 所 描述 的 组 织 。 它 涉及 4 个 寄存 器 。 

© 存储 器 地 址 寄存 器 (memory address register, MAR): 连接 到 系统 总 线 的 地 址 线 。 它 指定 了 

读 、 写 操作 的 内 存 地 址 。 
。 存储 器 缓冲 寄存 器 ( memory buffer register, MBR): 连接 到 系统 总 线 的 数据 线 。 它 存放 将 
被 存 人 内 存 的 值 或 最 近 从 内 存 读 出 的 值 。 

© 程序 计数 器 (program counter, PC): 保存 待 取 的 下 一 条 指令 的 地 址 。 

e 指令 寄存 器 (instruction register, IR): 保存 最 近 取 来 的 指令 。 

下 面 从 对 CPU 寄存 器 影响 的 角度 来 查看 取 指 周期 的 事件 顺序 。 图 15-2 给 出 一 个 例子 。 取 指 
周期 开始 时 ， 下 一 条 将 被 执行 的 指令 的 地 址 存放 在 程序 计数 器 PC 中 ; 此 例 中 的 地 址 是 1100100, 
第 一 步 是 将 此 地 址 送 到 MAR ， 因 为 这 是 与 地 址 总 线 相 连 的 唯一 寄存 器 。 第 二 步 是 装 和 指令。 所 
要 求 的 地 址 (在 MAR F) 放 到 地 址 总 线 上 ， 控 制 器 发 出 一 个 读 (READ) 命令 到 控制 总 线 上 ， 
于 是 结果 出 现在 数据 总 线 上 并 复制 到 MBR 内 。 我 们 需 对 PC 递增 一 个 指令 的 长 度 ， 以 便 为 取 下 
一 条 指令 做 准备 。 因 为 这 两 个 动作 (由 内 存 读 一 个 字 和 递增 PC) 彼此 不 相干 ， 故 可 同时 完成 以 
节省 时 间 。 第 三 步 是 将 MBR 的 内 容 传送 到 IR， 这 也 释放 了 MBR， 使 其 可 用 于 下 面 可 能 有 的 间接 
周期 。 

于 是 ， 简 单 的 取 指 周期 实际 上 由 三 步 和 四 个 微 操 作 组 成 。 每 个 微 操 作 涉及 数据 在 寄存 器 之 
间 的 传送 。 只 要 这 些 传送 彼此 互 不 干扰 ， 那 么 这 几 个 微 操作 就 可 在 一 步 之 内 同时 完成 。 下 面 用 符 
号 描述 此 事件 顺序 。 


tı : MAR« (PC) 
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a) 开始 〈 在 0 时 刻 之 前 ) 







MAR|0000000001100100 
MBR |0001000000100000 
0000000001100101 


PC 
IR 





AC 





c) 第 二 步 之 后 


MAR |0000000001100100 












b) 第 一 步 之 后 


MAR }0000000001100100 
MBR [0.001000000100000 
pc }0000000001100101 
IR{0001000000100000 
Acl| 


d) 第 三 步 之 后 


图 15-2 事件 顺序 ， 取 指 周期 


ta: MBR- fF 
PC<«—(PC) + I 
ts : IR+ (MBR) 


这 里 了 表示 指令 长 度 。 我 们 需要 对 这 个 操作 序列 做 些 解释 。 为 了 定时 ， 假 定 有 时 钟 装 置 可 用 ， 它 
发 出 等 距 的 时 钟 脉冲 ， 每 个 时 钟 脉冲 定义 一 个 时 间 单 位 。 于 是 所 有 的 时 间 单 位 都 是 等 长 的 。 每 个 微 
操作 都 能 在 一 个 时 间 单 位 内 完成 。(t, ,，b ，b ) 代表 连续 的 时 间 单位 。 换 名 话说， 我 们 有 : 

。 第 1 个 时 间 单 位 PC 内 容 传送 到 MAR, 

。 第 2 个 时 间 单 位 被 MAR 指定 的 内 存 中 的 内 容 存 放 到 MBR 中 ，PC 递增 7。 

。 第 3 个 时 间 单 位 ”传送 MBR 的 内 容 到 IR, 

注意 ， 第 2 个 和 第 3 个 微 操作 都 是 在 第 2 个 时 间 单 位 同时 发 生 的 。 第 3 个 微 操作 也 能 与 第 4 
个 微 操作 组 合 在 一 起 ， 并 且 不 影响 取 指 操作 。 

tı : MARe (PC) 

t : MBR 二 内 存 


t3: PC (PC) +I 
IR +— (MBR) 


微 操 作 的 分 组 必须 遵守 下 面 两 个 简单 的 原则 : 

(1) 事件 的 流动 顺序 必须 是 恰当 的 。 于 是 ，( MAR<- (PC) ) 必须 先 于 〈MBR 人 内存 ) Al 
为 内 存 读 操作 要 使 用 MAR 中 的 地 址 。 

(2) 必须 避免 冲突 。 不 要 试图 在 一 个 时 间 单 位 里 去 读 、 写 同一 个 寄存 器 ， 否 则 结果 是 不 可 预 
料 的 。 例 如 ，(MBR*- 内 存 ) 和 (IR-MBR) 这 两 个 微 操 作 不 应 出 现在 同一 时 间 单 位 里 。 

最 后 值得 注意 的 是 ， 如 果 有 一 个 微 操作 涉及 加 法 运算 ,为 避免 电路 的 重复 ， 这 个 加 法 应 通过 
ALU 完成 。 根 据 ALU 的 功能 和 CPU 的 组 织 ， 这 个 ALU 的 使 用 可 能 引起 另外 的 微 操作 。 我 们 把 这 
个 问题 放 在 本 章 后 面 讨 论 。 

将 这 里 和 下 面 所 讨论 的 事件 与 图 3-5 进行 对 比 是 有 益 的 。 图 3-5 未 涉及 微 操 作 ， 这 里 的 讨论 
表示 了 完成 指令 周期 的 子 周 期 所 需 的 操作 。 


15.1.2 ”间接 周期 


在 取 到 指令 后 ， 下 一 步 是 取 源 操作 数 。 继 续 上 述 简单 例子 ， 假 设 使 用 单 地 址 的 指令 格式 并 且 
支持 直接 与 间接 寻 址 方式 。 若 指令 指定 是 间接 寻 址 ， 则 在 指令 执行 前 有 一 个 间接 周期 。 数 据 流 与 
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图 12-7 有 所 不 同 ， 它 包括 下 述 微 操作 : 
tı : MAR (IR (地 址 ) ) 
t, : MBR- 
t3 : IR (地 址 ) 二 (MBR (地 址 ) ) 


指令 的 地 址 字段 被 传送 到 MAR ， 然 后 用 于 读 取 操作 数 的 地 址 。 最 后 ，MBR 修改 IR 的 地 址 字 
段 ， 于 是 它 现在 容纳 的 是 操作 数 的 直接 地 址 而 不 是 间接 地 址 。 

现在 ，IR 的 状态 与 不 使 用 间接 寻 址 方式 时 的 状态 是 相同 的 ， 并 且 它 已 为 执行 周期 准备 就 绪 
了 。 先 将 执行 周期 的 讨论 放 在 一 边 ， 下 面 考虑 中 断 周 期 。 


15.1.3 ”中断 周期 


在 执行 周期 完成 时 ， 要 进行 测试 以 确定 是 否 有 允许 的 中 断 产生 。 若 是 ， 则 出 现 一 个 中 断 周 
期 。 这 个 周期 的 特性 对 于 不 同 的 机 器 差异 很 大 。 我 们 给 出 一 个 很 简单 的 事件 序列 ， 正 如 图 12-8 
所 示 ， 其 操作 步骤 为 : 

tı : MBRe (PC) 

t, : MAR<- 保 存 地 址 

PC+- 子 程序 地 址 

t3 : Aff (MBR) 

在 第 一 步 ，PC 的 内 容 传送 到 MBR， 这 样 它 可 作为 中 断 返回 地 址 而 保存 起 来 。 然 后 ， 把 MBR 
中 PC 内 容 将 要 保存 到 的 内 存 地 址 装 入 到 MAR， 同 时 中 断 处 理子 程序 的 起 始 地 址 装 人 PC。 这 两 
个 操作 可 以 是 单一 的 微 操作 。 然 而 ， 因 为 大 多 数 CPU 提供 了 多 种 或 多 级 中 断 ， 故 可 能 会 使 用 一 
个 或 多 个 另外 的 微 操 作 来 取得 该 保存 地 址 和 子 程序 起 始 地 址 。 任 何 情况 下 ， 一 旦 得 到 这 两 个 地 
址 ， 并 分 别 装 入 到 PC 和 MAR 中 ， 最 后 一 步 是 将 保存 有 PC 旧 值 的 MBR ANF. WE, CPU 
开始 为 下 一 个 指令 周期 做 好 准备 了 。 


15.1.4 执行 周期 


取 指 、 间 接 和 中 断 周 期 是 简单 并 可 预先 确定 的 。 每 个 包括 一 系列 小 的 、 固 定 序列 的 微 操作 ， 
并 且 每 当 某 周期 出 现时 其 相应 的 一 组 微 操作 就 被 重复 一 次 。 

但 执行 周期 不 是 这 样 。 因 为 有 不 同 的 操作 码 ， 所 以 就 可 能 会 出 现 不 同 的 微 操作 序列 。 让 我 们 
来 思考 几 个 假想 的 例子 。 

首先 ， 考虑 一 条 加 法 指令 : 

ADD R1, X 
它 将 存储 器 X 位置 的 内 容 加 到 寄存 器 R1。 该 加 法 指令 可 能 产生 如 下 的 微 操 作 序列 : 

tı : MAR<—(IR (地 址 )) 

C2: MBR- ff 

t}: Rl+-(R1) + (MBR) 

开始 时 ，IR 中 装 有 ADD 指令 。 第 一 步 是 IR 的 地 址 部 分 装 人 到 MAR， 然 后 读 出 被 引用 到 的 
存储 器 位 置 中 的 内 容 。 最 后 ， 由 ALU 将 R1 和 MBR 的 内 容 相 加 。 同 样 ， 这 是 一 个 简化 的 例子 。 
如 从 TR 中 提取 出 寄存 器 的 引用 ， 以 及 用 某 个 中 间 寄 存 器 对 ALU 的 输入 和 输出 进行 暂 存 等 ， 都 可 
能 要 求 男 外 的 微 操作 。 

让 我 们 再 来 看 两 个 更 复杂 的 例子 。 一 个 常用 的 指令 是 “递增 ， 若 为 0 则 跳 步 ”的 指令 : 

ISZ X 

X 位 置 的 内 容 递 增 1， 若 结果 是 0， 则 跳 过 下 一 条 指令 。 可 能 的 微 操作 序列 为 : 

tı : MAR+ (IR (地 址 )) 

t, : MBR*- 内 存 

t3 : MBR+— (MBR) +1 


t4 : f (MBR) 
If ((MBR) =0) then (PC (PC) +I) 
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这 里 引入 的 新 特点 是 条 件 操作 。 知 (MBR) =0， 则 PC 递增 一 个 指令 长 度 。 这 个 测试 和 递增 
操作 可 作为 一 个 微 操 作 来 实现 。 还 要 注意 ， 这 个 微 操作 能 与 将 MBR 中 的 修改 值 写 回 内 存 的 微 操 
作 同 时 完成 。 

最 后 ， 考 虑 子 程序 调用 指令 。 作 为 例子 ， 考 虑 一 个 “转移 并 保存 地 址 ”指令 : 

BSA X 

此 BSA 指令 之 后 的 指令 地 址 被 保存 于 X 位 置 中 ， 并 由 X+I 位 置 继续 执行 。 然 后 这 个 被 保存 
地 址 用 于 返回 。 这 种 指令 提供 对 子 程序 调用 直截了当 的 支持 。 对 应 的 微 操 作 是 : 

tı : MAR(IR (地 址 ) ) 

MBR* 一 (PC ) 
ta : PC 二 -(IR (地 址 )) 


内 存 . 一 (MBR) 
t3 : PC+-(PC) +I 


指令 开始 时 PC 中 的 地 址 是 下 一 条 指令 的 地 址 。 它 被 保存 在 IR 指定 的 地 址 位 置 中 。 此 后 ， 
PC 中 的 地 址 也 递增 1T， 以 提供 下 一 指令 周期 的 指令 地 址 。 


15.1.5 ”指令 周期 


我 们 已 看 到 ， 指 令 周 期 的 每 个 阶段 都 可 分 解 为 一 系列 的 微 操 作 。 在 本 例 中 ， 取 指 、 间 接 、 中 
断 周 期 都 各 有 一 个 序列 ， 而 对 于 执行 周期 则 是 每 一 操作 码 有 一 个 序列 。 

为 完善 此 模型 ,需要 将 微 操 作 序列 连接 在 一 起 ， 如 图 15-3 所 示 。 我 们 假设 了 一 个 2 位 的 新 
寄存 器 ， 叫 做 指令 周期 代码 (Instruction Cycle Code，ICC)。 此 ICC 定义 了 CPU 处 于 周期 哪 一 部 
分 的 状态 : 

00: 取 指 

01: 间接 

10: 执行 

11: 中 断 

这 4 个 周期 每 个 结束 时 会 对 ICC 进行 相应 的 设置 。 间 接 周期 之 后 总 是 执行 周期 ， 中 断 周期 之 后 
总 是 取 指 周期 (参见 图 12-4) 。 而 执行 周期 和 取 指 周期 之 后 应 是 什么 周期 ， 这 取决 于 系统 的 状态 。 

于 是 ， 图 15-3 的 流程 图 定义 了 微 操 作 的 完整 顺序 ， 它 仅 取 决 于 指令 序列 和 中 断 模式 。 当 然 ， 
这 是 一 个 简化 的 例子 ， 实 际 的 CPU 流程 会 更 复杂 。 但 无 论 如 何 ， 我 们 的 讨论 已 说 明 : CPU 的 操 
作 被 定义 为 微 操 作 序列 的 执行 。 现 在 ， 我 们 可 以 来 考虑 控制 器 如 何 发 起 这 个 序列 的 执行 。 


11 (中 断 ) 00 ( 取 指 ) 


10 (执行 ) 01 (间接 ) 





建立 
读 地 址 取 指 令 
ICC-00 : 执行 指令 





ICC=00 





图 15-3 ”指令 周期 流程 图 
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15.2 ”处 理 器 控制 


15.2.1 功能 需求 

根据 前 面 的 分 析 结 果 ， 可 将 CPU 的 行为 (功能 ) 分 解 为 称 作 微 操作 的 基本 操作 。 下 一 个 目 
标 是 : 确定 控制 器 的 特性 。 通 过 把 CPU 的 操作 分 解 到 它 的 最 基本 级 ， 就 能 严格 定义 控制 器 必须 
引起 什么 动作 发 生 。 于 是 ， 就 可 以 定义 控制 器 的 功能 需求 ， 即 控制 器 必须 完成 的 功能 。 这 些 功能 
需求 的 定义 是 设计 和 实现 控制 器 的 基础 。 

根据 以 上 信息 ， 如 下 三 步 过 程 能 表征 控制 器 : 

(1) 定义 CPU 的 基本 元 素 。 

(2) 描述 CPU 完成 的 微 操 作 。 

(3) 确定 为 了 使 微 操作 完成 ， 控 制 器 必须 具备 的 功能 。 

至 此 , 已 完成 第 1 步 和 第 2 步 ， 让 我 们 总 结 其 结果 。 首 先 ，CPU 的 基本 功能 元 素 有 : ALU, 
寄存 器 组 、 内 部 数据 通路 、 外 部 数据 通路 、 控 制 器 。 

下 述 思 考 应 该 可 使 读者 信服 ， 这 是 一 个 完整 的 列表 。ALU 是 计算 机 的 功能 精髓 。 寄 存 器 组 
用 于 CPU 内 的 数据 存储 。 某 些 寄 存 器 包含 用 于 管理 指令 顺序 执行 所 需 的 状态 信息 (如 程序 状态 
字 ) ， 其 他 寄存 器 含有 来 自 或 去 往 ALU、 内 存 或 VO 模块 的 数据 。 内 部 数据 通路 用 于 寄存 器 之 间 
或 寄存 器 与 ALU 之 间 的 数据 传输 。 外 部 数据 通路 用 于 将 寄存 器 连接 到 内 存 和 LO 模块 ， 这 通常 
此 助 于 系统 总 线 。 控 制 器 引起 CPU 内 的 操作 发 生 。 

程序 执行 由 涉及 这 些 CPU 元 素 的 操作 组 成 。 正 如 我 们 已 看 到 的 ， 这 些 操 作 由 微 操 作 序 列 组 
成 。 回 顾 15.1 节 可 知 ， 所 有 的 微 操 作 可 按 如 下 分 类 : 

© 在 寄存 器 之 间 传 送 数据 。 

。 将 数据 由 寄存 器 传送 到 外 部 接口 〈 如 系统 总 线 ) 。 

。 将 数据 由 外 部 接口 传送 到 寄存 器 。 

。 将 寄存 器 作为 输入 、 输 出 ， 完 成 算术 或 逻辑 运算 。 
完成 一 个 指令 周期 所 需 的 各 种 微 操 作 ， 包 括 执行 指令 集中 任何 指令 的 微 操 作 ， 它 们 都 属于 上 述 
类 型 之 一 。 

现在 我 们 能 更 明确 地 说 明 控制 器 的 功能 方式 ， 控 制 器 完成 两 项 基本 任务 。 

e JEFF (sequencing): 根据 正 被 执行 的 程序 ， 控 制 器 使 CPU 以 恰当 的 顺序 一 步 步 通 过 一 系 

列 微 操 作 。 
© 执行 (execution): 控制 器 使 每 个 微 操作 得 以 完成 。 
以 上 是 控制 器 所 完成 任务 的 功能 描述 ， 控 制 器 如 何 实 现 这 些 功能 的 关键 是 对 控制 信号 的 使 用 。 


15.2.2 控制 信号 


我 们 已 经 定义 了 CPU 的 组 成 (ALU、 寄 存 器 、 数 据 通路 等 ) 及 其 完成 的 微 操 作 。 为 使 控制 
器 实现 其 功能 ， 就 必须 提供 允许 它 确 定 系统 
状态 的 输入 和 人 允许 它 控制 系统 行为 的 输出 。 | 指令 寄存 器 | 
这 些 是 控制 器 的 外 部 规范 。 至 于 内 部 规范 ， Jh 
控制 器 必须 包含 完成 它 的 定 序 和 执行 功能 的 一 
逻辑 。 我 们 把 控制 内 部 操作 的 讨论 留 到 15.3 
节 和 第 16 章 。 本 节 的 剩余 部 分 用 于 讨论 控制 
器 和 CPU 其 他 元 素 的 交互 作用 。 nee 
图 15-4 是 一 个 控制 器 的 一 般 模型 ， 图 中 
显示 了 控制 器 的 所 有 输入 和 输出 。 输 入 是 : 图 15-4 ”控制 器 模型 结构 图 









CPU 内 的 控制 信号 


来 自控 制 总 线 的 控制 信号 





到 控制 总 线 的 控制 信号 
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。 时 钟 : 这 是 控制 器 如 何 “遵守 时 间 ” 的 关键 。 控 制 器 要 在 每 个 时 钟 脉冲 完成 一 个 〈 或 一 
组 同时 的 ) 微 操 作 。 这 有 时 称 为 处 理 器 周期 时 间 (processor cycle time) 或 时 钟 周期 时 间 
(clock cycle time) 。 

。 指令 寄存 器 : 当前 指令 的 操作 码 和 寻 址 方式 用 于 确定 在 执行 周期 内 完成 何 种 微 操 作 。 

。 标志 : 控制 器 需要 一 些 标志 来 确定 CPU 的 状态 和 前 一 个 ALU 操作 的 结果 。 例 如 ， 对 那个 
“递增 ， 若 为 0 则 跳 步 ”(ISZ) 指令 来 说 ， 控 制 器 将 依据 零 标志 位 是 否 置 位 来 决定 PC 是 
否 递增 一 个 指令 长 度 。 

。 来 自控 制 总 线 的 控制 信号 : 系统 总 线 的 控制 线 部 分 向 控制 器 提供 的 控制 信号 。 

输出 是 : 

e CPU 内 的 控制 信号 : 这 有 两 类 ， 一 类 用 于 寄存 器 与 其 他 寄存 器 之 间 传 送 数据 ， 另 一 类 用 
于 启动 特定 的 ALU 功能 。 

。 到 控制 总 线 的 控制 信号 : 这 亦 有 两 类 ， 即 到 存储 器 的 控制 信号 和 到 IO 模块 的 控制 信号 。 

控制 信号 可 分 为 三 类 ， 它 们 分 别 是 : 启动 ALU 功能 的 ; 控制 数据 路 径 的 ; 外 部 系统 总 线 上 


的 或 其 他 外 部 接口 上 的 控制 信号 。 所 有 这 些 信 号 最 终 作 为 二 进 制 输入 量 直接 输入 到 各 个 逻辑 
门 上 。 


让 我 们 再 次 考察 取 指 周期 ， 看 看 控制 器 如 何 维护 控制 。 控 制 器 保持 着 当前 处 于 指令 周期 何 


处 的 记录 。 在 一 个 给 定时 间 点 ， 控 制 器 知道 下 面 将 要 完成 的 是 取 指 周期 。 第 一 步 是 传送 PC 的 内 
容 到 MAR。 控 制 器 完成 这 个 任务 是 通过 发 出 控制 信号 ， 打 开 PC 各 位 与 MAR 各 位 之 间 的 门 。 下 
一 步 是 由 存储 器 读 一 个 字 装 入 MBR 并 递增 PC。 控 制 器 通过 发 出 如 下 控制 信号 来 完成 这 个 任务 : 


成 一 


。 控制 信号 打开 逻辑 门 ， 以 便 人 允许 MAR 的 内 容 送 到 地 址 总 线 上 。 

。 存储 器 读 控 制 信号 送 到 控制 总 线 上 。 

。 控制 信号 打开 逻辑 门 ， 允 许 数据 总 线 上 的 内 容 存 人 MBR, 

。 控制 信号 对 PC 内 容 加 工 ( 指 令 长 度 ) 并 把 结果 存 回 PC。 

接着 ， 控 制 器 发 出 打开 MBR 和 IR 之 间 门 的 控制 信号 。 

这 就 完成 了 取 指 周期 ， 除 了 一 件 事 : 控制 器 必须 判断 下 面 是 要 完成 一 个 间接 周期 还 是 要 完 
个 执行 周期 。 为 此 ， 它 要 检查 IR， 看 看 此 指令 是 否 要 进行 间接 存储 器 访问 。 

间接 周期 和 中 断 周期 的 工作 类 似 。 对 于 执行 周期 ， 控 制 器 要 检查 指令 的 操作 码 ， 并 由 此 判断 


此 周期 要 完成 什么 微 操作 。 


15.2.3 ”控制 信号 举例 


为 说 明 控制 器 的 功能 ， 让 我 们 考 


察 图 15-5 所 示 的 例子 。 这 是 具有 单一 
累加 器 (AC) 的 简单 CPU， 图 中 显 
示 了 部 件 之 间 的 数据 通路 。 控 制 器 发 
出 信号 的 控制 通路 未 画 出 ， 但 控制 信 
号 的 终端 用 一 个 小 圆圈 指示 并 标记 有 
Ci。 此 控制 器 接受 来 自 时 钟 、 指 令 寄 
存 器 和 标志 的 输入 。 每 个 时 钟 周期 ， 
控制 器 读 取 所 有 的 这 些 输入 并 发 出 一 
组 控制 信号 。 控 制 信号 分 别 送 往 三 个 
目标 。 
。 数据 通路 : 控制 器 控制 CPU 
内 部 的 数据 流 。 例 如 ， 取 指令 图 15-5 数据 通路 和 控制 信号 
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时 ，MBR 的 内 容 传送 到 IR。 为 了 能 控制 每 条 通路 ,通路 上 都 有 逻辑 门 (图 中 以 圆圈 表 


示 ) 。 来 自控 制 器 的 控制 信号 可 临时 打开 逻辑 门 让 数据 通过 。 


e ALU: 控制 器 以 一 组 控制 信号 控制 ALU 的 操作 。 这 些 信号 作用 于 ALU 内 的 各 种 逻辑 电路 


和 门 。 


。 系统 总 线 : 控制 器 发 送 控制 信号 到 控制 总 线 上 〈 如 存储 器 读 信 号 ) 。 

控制 器 必须 总 是 知晓 它 处 于 指令 周期 的 什么 阶段 。 利 用 这 一 信息 ， 并 通过 读 取 所 有 的 输入 ， 
控制 器 发 送 一 系列 的 控制 信号 使 微 操 作 得 以 产生 。 控 制 器 使 用 时 钟 脉 冲 确 定 事件 顺序 ， 人 允许 事 
件 之 间 有 一 定 的 时 间 间 隔 以 使 信号 电 平 得 以 稳定 。 表 15-1 表示 的 控制 信号 ， 是 前 面 描述 过 的 某 
些微 操作 序列 所 需 的 。 为 了 简化 ， 递 增 PC 的 数据 和 控制 通路 ， 以 及 固定 地 址 装 入 PC 和 MAR 的 


数据 和 控制 通路 没有 给 出 。 


15-1 微 操 作 和 控制 信号 
微 操作 


有 效 的 控制 信号 





tı: MAR (PC) C, 





t: MBR«—Memory 
PC (PC) +1 
tz: IR (MBR) 









Cs, Cr 

















tı: MAR (IR (地 址 )) 











间接 ty: MBR«—Memory 



















t3: IR (地 址 ) — (MBR《〈 地 址 ) ) 
ti: MBR (PC) 
to: MAR*- 保 存 _ 地 址 
PC- FHF eht 


t3: Memory+— (MBR) 


TE: Cr = 到 系统 总 线 的 读 控 制 信号 
Cy = 到 系统 总 线 的 写 控制 信号 


考虑 控制 器 的 最 小 特性 是 有 益 的 。 控 制 器 是 整个 计算 机 运行 的 
引擎 。 它 只 需要 知道 将 被 执行 的 指令 和 算术 、 逻 辑 运 算 结 果 的 性 质 
(例如 ， 正 的 、 上 溢 等 ) 。 它 不 需要 知道 正 被 处 理 的 数据 或 得 到 的 
实际 结果 具体 是 什么 。 并 且 ， 它 控制 任何 事情 只 是 以 少量 的 送 到 
CPU 内 的 和 送 到 系统 总 线 上 的 控制 信号 来 实现 。 





中 断 









15.2.4 ”处 理 器 内 部 的 组 织 


图 15-5 中 使 用 了 不 同 的 数据 通路 。 这 类 组 织 的 复杂 性 可 以 清 
楚 地 看 到 。 更 典型 的 是 使 用 某 种 内 部 总 线 的 组 织 结构 ， 如 图 12-2 
所 推荐 的 那样 。 

使 用 一 个 CPU 的 内 部 总 线 ， 可 将 图 15-5 重 安排 成 如 图 15-6 所 
IRo ALU 和 所 有 的 CPU 寄存 器 都 连接 到 单一 的 内 部 总 线 上 。 为 将 
数据 由 各 寄存 器 传送 到 此 总 线 上 ， 或 从 此 总 线 上 接收 ， 内 部 总 线 和 
寄存 器 之 间 提 供 了 门 和 控制 信号 。 另 外 的 控制 线 控制 着 数据 和 系统 
(外 部 ) 总 线 的 交换 以 及 ALU 的 操作 。 

图 中 所 示 的 内 部 组 织 已 添加 了 两 个 新 寄存 器 ， 分 别 标记 为 Y 和 





数据 线 





Z， 这 是 ALU 的 一 些 相应 操作 所 需要 的 。 当 ALU 的 操作 涉及 两 个 操 图 15-6 有 内 部 总 线 的 CPU 
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作 数 时 ， 一 个 可 由 内 部 总 线 得 到 ,但 为 一 个 必须 要 从 男 外 的 源 得 到 。 累 加 器 AC 能 用 于 这 个 目 
的 ， 但 这 限制 了 系统 的 灵活 性 。 而 且 ， 对 于 有 多 个 通用 寄存 器 的 CPU ， 使 用 累加 器 的 方案 是 不 可 
TH. HEY 提供 了 另 一 个 输入 的 暂时 存储 。ALU 是 一 个 组 合 逻 辑 电路 〈 见 第 20 章 ) ， 其 内 
部 无 存储 电路 。 这 样 ， 当 控制 信号 激活 ALU 的 某 个 功能 时 ，ALU 输入 通过 ALU 的 组 合 逻 辑 电路 
被 转换 为 ALU 的 输出 。 因 此 ，ALU 的 输出 不 能 直接 连 到 内 部 总 线 上 ， 因 为 这 个 输出 会 又 反馈 为 
输入 。 为 此 ， 寄 存 器 Z 提供 了 这 个 输出 的 暂时 存储 。 通 过 这 样 的 安排 ， 把 存储 器 的 值 加 到 AC 的 
操作 将 有 如 下 步骤 : 

tı : MAR< (IR (地 址 ) ) 

t, : MBR- 

ta : Y4— (MBR) 

ty: Zac] + (Y) 

ts : AC (Z) 


其 他 的 组 织 形式 也 是 允许 的 ， 但 通常 是 要 使 用 某 种 内 部 总 线 或 一 组 内 部 总 线 。 使 用 公共 数 
据 通路 ， 简 化 了 互 连 布局 和 CPU 的 控制 。 使 用 内 部 总 线 的 另 一 实际 理由 是 节省 芯片 面积 。 
15.2.5 Intel 8085 


为 说 明 本 章 至 此 所 介绍 的 这 些 概念 ， 让 我 们 考虑 Intel 8085， 它 的 内 部 结构 如 图 15-7 所 示 。 
几 个 关键 的 组 件 需要 稍 作 解 释 。 


INTA RST6.5 TRAP 





Clk Out 


Ready Hold Reset in te H 线 wine ole 


图 15-7 Intel 8085 处 理 器 结构 图 
o 递增 /递减 地 址 锁 存 (incrementer/ decrementer address latch) : 这 是 能 对 栈 指针 或 程序 计数 
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器 的 内 容 进行 加 1 或 减 1 的 逻辑 。 这 避免 了 为 这 些 加 减法 运算 使 用 ALU， 从 而 节省 了 
时 间 。 
o 中 断 控 制 (interrupt control): 这 个 模块 管理 多 级 中 断 信号 。 
e #47 1/0 控制 (serial I/O control): 这 个 模块 控制 与 串 行 设备 的 接口 ， 串 行 设备 是 以 每 次 
1 位 的 方式 进行 通信 的 设备 。 
表 15-2 说 明了 8085 的 外 部 信号 ， 它 们 连接 到 外 部 系统 总 线 上 。 这 些 信 号 是 8085 处 理 器 与 系 
统 其 余部 分 的 联系 (SLA 15-8)。 


表 15-2 Intel 8085 外 部 信号 






高 位 地 址 (As ~ As) ”16 位 地 址 的 高 8 位 
地 址 /数据 (AD, ~AD) 引 脚 复 用 ,或 是 16 位 地 址 的 低 8 位 ,或 是 8 位 数据 
串 行 输入 数据 (SID) ”适合 串 行 发 送 (一 次 一 位 ) 设备 的 单个 位 输入 

串 行 输出 数据 (SOD) ”适合 串 行 接收 设备 的 单个 位 输出 

时 钟 (CLK (Out)) ”系统 时 钟 。CLK 信号 送 到 外 围 芯片 并 同步 它们 的 时 序 
Xi ，X2 这 些 信号 来 自 外 部 石英 晶体 或 其 他 设备 ， 用 于 驱动 内 部 时 钟 发 生 器 


地 址 锁 存 使 能 (ALE) “出现 于 机 器 周期 的 第 一 个 时 钟 周期 ， 并 使 外 围 芯 片 存储 地 址 线 
上 的 内 容 。 这 就 允许 地 址 模块 (例如 内 存 、L0) 知道 它们 被 寻 址 了 


定时 和 控制 信号 状态 (So, S) ”用 于 指示 是 否 有 读 或 写 操作 正在 发 生 的 控制 信号 


IO/M 用 于 指示 读 、 写 操作 的 对 象 是 VO 模块 还 是 存储 器 


读 控 制 (RD) ”指示 被 选中 的 存储 器 或 VO 模块 将 被 读 ， 并 且 数 据 总 线 可 用 于 传输 
数据 

写 控制 (WR) ”指示 数据 总 线 上 的 数据 将 被 写 入 到 被 选中 的 O 模块 或 是 存储 器 位 置 
中 去 

保持 请 求 (HOLD) 请求 CPU 放弃 对 外 部 系统 总 线 的 控制 和 使 用 。CPU 将 完成 当前 IR 
中 的 指令 然后 进入 保持 态 。 在 保持 态 期 间 ，CPU 没有 信号 送 至 数据 、 地 址 、 控 制 总 线 ， 
此 期 间 可 用 于 DMA 操作 
存储 器 和 VO 发 起 的 信号 保持 确认 (HOLDA) ”控制 器 输出 此 信号 表示 它 以 确认 了 HOLD 请 求 信号 ， 并 指示 总 
"7 | 线 现在 可 用 

就 绪 (Ready) ”用 于 CPU 与 较 慢 的 存储 器 或 0 设备 同步 。 当 一 个 被 寻 址 的 设备 使 
Ready 有 效 时 ，CPU 就 开始 一 个 输入 (DBIN) 或 输出 (WR) 操作 。 和 否则 ，CPU 进入 等 待 
状态 直至 此 设备 就 绪 


Aba (TRAP) 重启 动 中 断 (RST 7.5、6.5、5.5) 


中 断 请 求 (TNTR) ”有 5 根 线 可 被 外 部 设备 使 用 以 中 断 CPU。 若 CPU 处 于 保持 态 或 禁 
有 关中 断 的 信和 号 止 中 断 ，CPU 将 不 理会 中 断 请 求 。 只 在 一 条 指令 执行 完 时 中 断 才 被 受理 。 中 断 以 优先 权 


降序 排队 
中 断 确 认 CINTA) ”确认 一 个 中 断 


复位 输入 〈Reset in) ”使 PC 内 容 将 被 置 为 0，CPU 将 从 位 置 0 处 恢复 执行 











地 址 和 数据 信号 













































































CPU 初始 化 信号 
复位 输出 (Reset out) CPU 已 经 复位 的 确认 信号 ， 它 能 用 于 复位 系统 的 其 余部 分 
Vee +5V 电源 
电源 和 地 
Vss 电气 地 





控制 器 由 两 个 组 件 组 成 : 指令 译 码 器 和 机 器 周期 编码 (instruction decoder and machine cycle 
encoding) 、 定 时 和 控制 (timing and control) 。 第 一 个 组 件 的 讨论 推迟 到 下 一 节 。 控 制 器 功能 主要 
在 于 定时 和 控制 各 个 模块 。 这 个 模块 包括 一 个 时 钟 并 接受 当前 指令 和 某 些 外 部 控制 信号 。 它 的 
控制 部 分 输出 信号 ， 这 包括 送 到 CPU 其 他 部 件 的 控制 信号 和 送 到 外 部 系统 总 线 的 控制 信号 。 
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CPU 操作 的 时 序 与 时 钟 同步 ， 并 受 控 于 控制 器 的 控制 信号 。 每 个 指令 周期 又 被 分 为 1 ~5 个 
机 器 周期 ， 每 个 机 器 周期 又 细 分 为 3 ~5 个 状态 。 每 个 状态 持续 一 个 时 钟 周期 。 在 一 个 状态 周期 
内 ，CPU 完成 由 控制 信号 所 确定 的 一 个 或 多 个 
同时 的 微 操 作 。 


Vcc 


机 器 周期 数目 ， 对 于 给 定 的 一 条 指令 而 言 是 HOLD 
固定 的 ; 但 从 一 条 指令 到 另 一 条 指令 ， 它 是 不 同 HLDA 
的 。 机 器 周期 定义 为 等 同 于 总 线 访问 。 于 是 ， 一 CLK(out) 
条 指令 的 机 器 周期 数 取决 于 CPU 必须 与 外 部 设 Reset in 
备 通 信 的 次 数 。 例 如 ， 若 一 条 指令 由 两 个 8 位 字 Ready 
节 组 成 ， 则 取 此 指令 需要 两 个 机 器 周期 。 若 此 指 IOM 
今 涉及 1 字 节 的 存储 器 或 IO 操作 ， 则 还 需要 第 Si 
三 个 机 器 周期 用 于 执行 。 Vpp 

图 15-9 给 出 8085 时 序 的 一 个 例子 ， 表 示 了 RD 
外 部 控制 信号 值 的 变化 。 当 然 ， 与 此 同时 ， 内 部 WR 
控制 信号 也 正 由 控制 器 产生 ， 用 于 控制 内 部 的 数 So 
据 传输 。 此 图 表示 的 是 一 条 OUT 指令 的 指令 周 Ais 
期 ， 它 需要 三 个 机 器 周期 (M, M,, M,). 在 An 
第 一 个 机 器 周期 ， 此 OUT 指令 的 前 一 半 被 取出 Ai 
来 ; 第 二 个 机 器 周期 取 来 指令 的 后 一 半 ， 它 含有 An 
用 于 输出 的 WO 设备 号 。 在 第 三 个 机 器 周期 ， Au 
AC 的 内 容 经 由 数据 总 线 写 人 所 选择 的 设备 。 Ato 

由 发 自控 制 器 的 地 址 锁 存 使 能 ALE (address By 
latch enabled) 脉冲 来 指示 每 一 机 器 周期 的 开始 。 As 





此 ALE 脉冲 使 外 部 电路 处 于 待命 状态 。 在 机 器 

周期 M, 的 状态 T, 期间， 控制 器 设置 IOZM 信号 图 15-8 Intel 8085 引 脚 分 布 图 

指出 这 是 一 个 存储 器 操作 。 控 制 器 亦 使 PC 内 容 放 到 地 址 总 线 ( Ajs ~ A,) 和 地 址 /数据 总 线 
(AD, ~AD,) Eo 在 ALE 脉冲 的 下 降 沿 ， 总 线 上 的 其 他 模块 会 保存 地 址 。 




















3MHzCLK 


Ais ~ Ag 


AD7~ADo 
ALE 

RD 

WR 


IO/M 








图 15-9 Intel 8085 OUT 指令 时 序 图 
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在 状态 T 期 间 ， 存 储 器 模块 将 被 寻 址 的 位 置 中 的 内 容 放 到 地 址 /数据 总 线 上 。 控 制 器 设置 
读 控制 RD (read control) 信号 以 指示 一 个 读 ， 但 它 等 待 着 直到 T, 才 复 制 总 线 上 的 数据 。 这 给 存 
储 器 模块 提供 一 个 时 间 ， 使 它 放 数据 于 总 线 上 并 使 信号 电 平 得 以 稳定 。 最 后 一 个 状态 T 是 一 个 
BAER (bus idle) 状态 ， 在 此 期 间 CPU 译 码 此 指令 。 其 余 的 机 器 周期 也 以 类 似 方式 进行 。 


15.3” 硬 布 线 实现 

通过 对 控制 器 的 输入 /输出 和 功能 的 介绍 ， 我 们 详细 讨论 了 控制 器 。 现 在 是 讨论 控制 器 实现 
问题 的 时 候 了 。 已 采用 的 各 种 技术 可 分 为 两 大 类 : 

e 硬 布线 实现 (hardwired implementation ) 

© 微 程序 实现 (microprogrammed implementation ) 

通过 硬 布线 方式 实现 ， 控 制 器 本 质 上 是 一 个 组 合 电路 。 它 把 输入 逻辑 信号 转换 为 一 组 输出 
逻辑 信号 ， 即 控制 信号 。 本 节 考 察 此 方法 。 微 程序 实现 是 第 16 章 的 主题 。 


15.3.1 控制 器 输入 


图 15-4 给 出 的 是 我 们 至 此 已 讨论 过 的 控制 器 ， 关 键 输入 是 指令 寄存 器 、 时 钟 、 标 志和 控制 
总 线 信 号 。 对 于 标志 和 控制 总 线 信号 来 说 ,一 般 是 每 个 位 都 有 某 种 意义 (例如 溢出 位 )。 而 男 两 
个 输入 对 于 控制 器 来 说 其 用 处 不 是 那么 直接 明了 。 

首先 考虑 指令 寄存 器 。 控 制 器 使 用 指令 的 操作 码 ， 并 将 为 不 同 的 指令 完成 不 同 的 动作 (发 
出 不 同 的 控制 信号 组 合 ) 。 为 简化 控制 器 逻辑 ， 应 使 每 一 操作 码 有 一 个 唯一 的 逻辑 输入 。 译 码 器 
(decoder) 能 完成 这 个 功能 ， 它 接收 一 个 编码 了 的 输入 并 产生 单一 的 输出 。 通 常 ， 译 码 器 有 个 
输入 和 2"” (2 的 nn 次 方 ) 个 输出 。2" 个 不 同 输入 之 一 将 产生 唯一 的 一 个 输出 。 表 15-3 EM n = 4 
的 一 个 例子 。 控 制 器 的 译 码 器 更 复杂 些 ， 它 要 考虑 变 长 的 操作 码 。 第 20 章 给 出 了 使 用 数字 逻辑 
实现 译 码 器 的 一 个 例子 。 


表 15-3 一 个 4 输入 16 输出 的 译 码 器 







































































0 
0 0 0 0 0 0 0 0 0 1 0 
0 0 0 0 0 0 0 0 1 0 0 
0 0 0 0 0 0 0 1 0 0 0 
0 0 0 0 0 0 1 0 0 0 0 
0 0 0 0 0 1 0 0 0 0 0 
0 0 0 0 1 0 0 0 0 0 0 
0 0 0 1 0 0 0 0 0 0 0 
0 0 1 0 0 0 0 0 0 0 0 
0 1 0 0 0 0 0 0 0 0 0 
1 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 0 0 0 
1 0 0 0 0 0 0 0 0 0 0 0 
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控制 器 的 时 钟 部 分 发 出 一 个 重复 的 脉冲 序列 。 这 对 于 度量 微 操 作 的 持续 时 间 是 有 用 的 。 本 
质 上 讲 ， 时 钟 脉冲 周期 要 足够 的 长 ， 以 
允许 信号 能 沿 着 数据 通路 传播 和 通过 
CPU 电路 。 然 而 ， 正 如 我 们 已 看 到 的 ， 
在 一 个 指令 周期 内 ， 控 制 器 要 在 不 同时 
间 单 位 发 送 不 同 的 控制 信号 。 于 是 ,我 
们 希望 有 一 个 计数 器 作为 控制 器 的 输 
入 ， 在 不 同 计 时 步骤 Ti T, 等 发 出 不 同 
的 控制 信号 。 在 指令 周期 结束 时 ， 控 制 
器 必须 通知 计数 器 ， 以 使 它 从 Ti 重新 
开始 。 

通过 这 两 点 改进 ， 控 制 器 能 表示 成 
如 图 15-10 所 示 的 结构 。 





图 15-10 ” 带 有 译 码 输入 的 控制 器 


15.3.2 ”控制 器 逻辑 


为 定义 控制 器 的 硬 布线 实现 方案 ， 所 剩 下 的 全 部 事情 就 是 讨论 控制 器 的 内 部 逻辑 了 ， 它 产 
生 作为 输入 信号 函数 的 输出 控制 信和 号。 

基本 上 ， 我们 必须 做 的 是 为 每 个 控制 信号 得 到 一 个 布尔 表达 式 。 这 最 好 用 例子 来 说 明 。 让 我 
们 再 一 次 考察 图 15-5 说 明 的 简单 例子 。 在 表 15-1 中 已 看 到 ， 微 操作 序列 和 控制 信号 都 需要 对 指 
令 周 期 4 个 阶段 中 的 3 个 进行 控制 。 

让 我 们 考虑 一 个 简单 控制 信号 C;， 这 个 信号 使 外 部 数据 总 线 上 的 数据 读 入 MBR。 可 看 出 ， 
它 在 表 15-1 使 用 了 两 次 。 让 我 们 重新 定义 两 个 新 的 控制 信号 P 了 和 Q， 它们 具有 如 下 的 解释 : 


PQ =00 取 指 周期 
PQ =01 间接 周期 
PQ =10 执行 周期 
PQ=11 中 断 周期 


则 如 下 的 表达 式 定义 了 C;: 
C,=P:Q-T,+P:Q:°T, 

即 控制 信号 C; 在 取 指 和 间接 周期 的 第 二 个 时 间 单 位 有 效 。 

这 个 表达 式 还 不 完整 ， 执 行 周 期 也 需要 C;。 在 这 个 简单 例子 中 假定 只 有 LDA, ADD 和 AND 
三 条 指令 还 需要 在 执行 时 读 内 存 。 现 可 将 C, 定义 为 : 

C,=P.Q.T+Pp.Q.T+Pp.0.(LDA+ADD+AND) . 

对 CPU 产生 的 任何 控制 信号 重复 这 样 的 过 程 ， 结 果 将 是 有 一 组 布尔 等 他 们 定义 了 控制 
器 的 行为 ， 从 而 定义 了 CPU 的 行为 。 

为 将 这 些 组 织 在 一 起 ， 控 制 器 必须 控制 指令 周期 的 状态 。 正 如 我 们 曾 提 到 过 的 ， 在 每 个 子 周 
期 ( 取 指 、 间 接 、 执 行 、 中 断 ) 结束 时 ， 控 制 器 都 要 发 出 一 个 信号 ， 以 使 时 序 发 生 器 重新 初始 
并 发 出 Ti。 控制 器 还 必须 设置 P、Q 的 相应 电 平 值 来 定义 下 面 将 要 完成 子 周 期 。 

读者 应 该 能 想得到 ， 对 于 当代 复杂 的 CPU 而 言 ， 其 控制 器 实现 所 需 的 布尔 表达 式 数 量 将 非 
常 大 。 实 现 这 样 一 个 组 合 电路 来 满足 所 有 这 些 布尔 表达 式 的 任务 将 变 得 异常 困难 。 结 果 是 ,普遍 
使 用 的 是 一 种 更 为 简洁 的 方法 : 微 程 序 设计 方式 。 下 一 章 我 们 会 来 讨论 这 一 主题 。 


15.4 推荐 的 读物 
包括 [FARH04] 和 [MAN004] 在 内 的 几 本 书 介绍 了 控制 器 功能 的 基本 原理 。 
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FARHO4 Farhat, H, Digital Design and Computer Organization. Boca Raton, FL: CRC 


mena Upper Saddle Res, 





15.5 关键 词 、 思 考题 和 习题 


关键 词 

control bus: 控制 总 线 control unit; 控制 器 

control path: 控制 通路 hardwired implementation; 硬 布 线 实现 
control signal : 控制 信和 号 microoperation: 微 操作 

思考 题 


15.1 说 明 指 令 的 编写 顺序 (written sequence) 与 时 间 顺 序 (time sequence) 的 区 别 。 
15.2 ”指令 和 微 操 作 的 关系 是 什么 ? 

15.3 CPU 控制 器 的 总 体 功能 是 什么 ? 

15.4 ”概述 表征 控制 器 的 三 步 又 。 

15.5 ”控制 器 要 完成 的 基本 任务 有 哪些 ? 

15.6 ”给 出 一 个 控制 器 输入 输出 的 典型 列表 。 

15.7 列 出 三 类 控制 信号 。 

15.8 简要 说 明 控 制 器 的 硬 布线 实现 是 什么 意思 ? 


15.1 假设 有 一 个 ALU 不 能 做 减法 运算 ， 但 它 能 加 两 个 输入 寄存 器 ， 并 能 对 两 个 寄存 器 的 各 位 取 逮 辑 反 。 
数 是 以 2 的 补 码 形式 存储 的 。 请 列 出 实现 减法 的 控制 器 必须 完成 的 微 操 作 。 
15.2 若 使 图 15-5 中 的 CPU 完成 如 下 指令 ， 请 以 与 表 15-1 相同 的 方式 列 出 其 微 操 作 和 控制 信号 : 
。 装载 一 个 数 到 累加 器 
。 保存 累加 器 内 容 到 存储 器 
© 加 一 个 数 到 累加 器 
。 AND 一 个 数 到 累加 器 
e 跳 转 
。 若 AC =0 则 跳 转 
。 累加 器 取 反 
15.3 ”假设 图 15-6 中 的 沿 总 线 传播 ， 以 及 通过 ALU 的 信号 其 传播 延迟 分 别 是 20ns 和 100ns。 由 总 线 将 数据 
拷贝 到 寄存 器 需要 10ns。 那 么 ， 必 须 允许 多 少时 间 才 能 : 
(a) 从 一 个 寄存 器 到 另 一 寄存 器 传送 数据 。 
(b) 递增 程序 计数 器 。 
15.4 以 图 15-6 的 内 部 总 线 结构 为 例 ， 考 虑 加 一 个 数 到 AC， 若 该 数 是 : 
(a) 一 个 立即 数 
(b) 一 个 直接 寻 址 的 操作 数 
(c) 一 个 间接 寻 址 的 操作 数 
请 写 出 所 需 的 微 操作 序列 。 
15.5 考虑 一 个 按照 图 10-14 来 实现 的 栈 ， 请 为 (a) 由 栈 弹出 (pop) 和 (b) ÆA (push) 此 栈 ， 给 出 相 
应 的 微 操作 序列 。 
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微 程 序 控制 


本 章 要 点 
© 硬 布线 控制 器 的 一 种 替代 方案 是 微 程 序 控 制 器 ， 它 的 控制 逻辑 是 微 程序 指定 的 。 微 程序 
由 以 微 程 序 设 计 语 言 编写 的 微 指 令 序列 组 成 ， 这 些微 指令 是 用 于 指定 微 操 作 的 非常 简单 
的 指令 。 
e 微 程序 控制 器 是 一 个 相对 简单 的 逻辑 电路 ，(1) 它 既 能 够 定 序 各 个 微 指 令 ，(2) 又 能 生 
成 执行 每 条 微 指令 的 控制 信号 。 

。 像 硬 布线 控制 器 那样 ， 微 指令 产生 的 控制 信号 用 于 引发 寄存 器 传送 和 ALU 操作 。 

20 世纪 50 年 代 ，M. V. Wilkes 最 先 提出 了 微 程 序 (microprogram) 这 个 术语 [WILK51 ] 。 
Wilkes 提出 了 一 种 控制 器 的 设计 方法 ， 它 是 有 组 织 而 又 有 体系 的 ， 避 免 了 硬 布线 实现 的 复杂 性 。 
这 个 思想 引起 了 很 多 研究 人 员 的 注意 ， 但 由 于 它 要 求 一 个 快速 且 不 太 昂 贵 的 控制 存储 器 而 显得 
不 太 实际 。 

Datamation 在 1964 年 2 月 刊 上 对 微 程 序 的 技术 状况 进行 了 评价 。 因 为 那 时 没有 任何 微 程 序 式 
系统 在 广泛 使 用 ， 于 是 一 篇 论文 [HILL64] 总 结 了 相当 流行 的 看 法 ， 说 微 程 序 “ 是 有 些 前 途 暗 
淡 ， 没 有 任何 主要 厂商 表明 对 此 技术 感 兴趣 ， 尽 管 可 推测 他 们 都 曾 考察 过 此 技术 。 

但 是 ， 这 种 情况 在 几 个 月 后 就 发 生 了 急剧 变化 。IBM 的 System/360 于 4 月 公布 ， 虽 然 不 是 全 
部 ,但 除了 它 的 最 大 型 号 之 外 ， 其 余 都 是 微 程序 的 。 尽 管 360 系列 是 在 半导体 ROM 可 以 使 用 之 
前 ， 但 微 程序 的 优点 足够 令 人 信服 地 使 IBM 这 样 做 。 从 此 ， 微 程序 设计 成 为 实现 CISC 处 理 器 的 
流行 技术 。 近 几 年 来 ， 微 程序 设计 已 较 少 使 用 ， 但 它 仍 是 计算 机 设计 的 有 用 工具 。 例 如 ， 正 如 我 
们 看 到 的 ，Pentium 4 的 机 器 指令 转换 为 类 RISC 形式 ， 它 们 中 的 大 多 数 不 使 用 微 程 序 来 执行 ; 然 
而 ， 仍 有 某 些 指令 使 用 微 程序 来 执行 。 


16.1 基本 概念 


16.1.1 WHEE 


正如 前 面 刚 描述 过 的 ， 控 制 器 像 是 一 个 相当 简单 的 设备 。 但 是 ， 若 以 基本 逮 辑 元 件 互 连 来 实 
现 一 个 控制 器 ， 却 不 是 一 个 简单 的 任务 。 设 计 必 须 包 括 定 序 微 操作 、 执 行 微 操作 、 解 释 操作 码 以 
及 根据 ALU 的 标志 来 决策 等 逻辑 。 设 计 和 测试 这 样 一 片 硬件 是 困难 的 ， 并且 这 种 设计 也 不 太 灵 
活 。 例 如 ， 改 动 设计 来 增加 新 的 机 器 指令 就 相当 困难 。 

有 一 种 替代 方法 ， 就 是 微 程序 控制 器 设计 方法 ， 它 是 很 多 CISC 处 理 器 普遍 采用 的 设计 方法 。 

参见 表 16-1 ， 除 使 用 控制 信号 外 ， 每 个 微 操作 都 以 符号 表示 来 描述 。 这 种 表示 看 起 来 像 是 一 
种 编程 语言 。 实 际 上 ， 它 确实 是 一 种 编程 语言 ， 叫 做 微 程 序 设 计 语 言 (microprogramming lan- 
guage) 。 每 行 描述 一 个 时 间 内 出 现 的 一 组 微 操 作 ， 并 称 为 一 条 微 指令 (microinstruction ) 。 这 种 微 
指令 序列 被 称 为 微 程序 或 固件 (firmware)。 后 一 术语 反映 了 这 样 的 事实 : 微 程序 是 介 于 硬件 与 
软件 之 间 的 。 以 固件 进行 设计 要 比 硬件 容易 ， 但 写 一 个 固件 程序 要 比 一 个 软件 程序 困难 得 多 。 

如 何 使 用 微 程序 概念 来 实现 控制 器 呢 ? 考虑 到 对 于 每 个 微 操 作 ， 控 制 器 所 做 的 全 部 事情 就 
是 产生 一 组 控制 信号 。 对 任 一 微 操 作 ， 控 制 器 发 出 的 每 根 控制 线 或 开 或 关 。 自 然 ， 对 应 这 种 情 
况 ， 每 根 控制 线 可 由 一 个 二 进 制 数 字 表 示 。 这 样 ， 我 们 就 构造 了 一 个 控制 字 (control word) ， 其 
中 每 位 代表 一 根 控制 线 ， 从 而 每 个 微 操 作 能 用 控制 字 中 的 不 同 的 0 和 1 的 式样 来 表示 。 
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am F 命令 的 效果 
An C(Acc) +C(n) 存 到 hcel 
Sn C(Acc) - C(n) 存 到 Acc 
Hn C(n) 移 到 Acc, 
Vn C( Ace, ) x C(n) 存 到 4cc, 其 中 C(n) SO 
Tn C( Ace, ) 移 到 n, 0 移 到 Acc 
Un C(Acc, ) Fl) n 
Rn C(Ace) x27" +!) ER] Acc 
Ln C(Acc) x2"+1 移 到 Acc 
Gn 如 果 C(Acc) <0, 将 控制 转移 到 n; WR C(Acc)>0, 忽略 ( 即 继续 串 行 前 进 ) 
In 从 输入 读 出 下 一 个 字符 , 并 存 到 
On. BE C(n) 到 输出 设备 
注 :Acc = 累加 器 


Acc, = 累加 器 高 半 部 分 
Acc, = 累加 器 低 半 部 分 
n= FEAL n 
C(X) =X PAR (X 可 以 是 寄存 器 ， 也 可 以 是 存储 器 位 置 ) 
若 能 将 这 些 控制 字 串 在 一 起 ， 就 能 表示 控制 器 完成 的 微 操 作 序列 了 。 然 而 ， 必 须 认 识 到 微 操 
作 序列 不 是 固定 的 。 有 时 有 间接 周期 ， 有 时 又 没有 。 让 我 们 把 控制 字 放 和 人 一 个 存储 器 单元 中 ， 每 
个 字 有 自己 唯一 的 地 址 。 现 在 再 给 每 个 控制 字 添 加 一 个 地 址 字段 ， 以 指示 若 某 种 条 件 为 真 时 
(例如 ， 存 储 器 访问 指令 中 的 间接 位 为 1) ， 将 要 执行 的 下 一 控制 字 的 位 置 。 还 有 ， 添 加 少数 几 位 
用 于 指示 条 件 的 真 假 。 
结果 是 在 图 16-1a 中 的 所 谓 水 平 微 指 令 (horizontal microinstruction) 。 此 微 指 令 或 控制 字 的 格 
式 说 明 如 下 。 这 里 对 每 一 CPU 内 控制 线 和 每 一 系统 控制 总 线 都 有 相应 1 位 。 它 还 有 一 个 指示 转 
移 发 生 条 件 的 条 件 字段 (condition 
field) 和 转移 目标 地 址 字段 (address 
field) ， 指 示 将 要 执行 的 微 指令 地 址 。 








微 指令 地 址 


这 样 的 微 指令 以 如 下 的 方式 解释 re 
执行 。 =% 

(1) 执行 这 条 微 指令 的 效果 是 ， ae 
打开 所 有 位 值 为 1 的 控制 线 ， 关 闭 所 Bi esefrenrrrern 
有 位 值 为 0 的 控制 线 。 生 成 的 控制 信 CPU 内 部 控制 信号 
号 会 使 得 一 个 或 多 个 微 操作 被 完成 。 a) 水 平 微 指令 

(2) 车 条 件 位 指示 的 条 件 为 假 ， pp m 
则 顺序 执行 下 一 条 指令 。 ii 

(3) 若 条 件 位 指示 的 条 件 为 真 ， pies 
则 地 址 字段 指向 的 微 指令 是 将 被 执行 
的 下 一 条 微 指令 。 E 

图 16-2 说 明 这 些 控制 字 或 微 指 
令 在 控制 存储 器 (control memory) 中 b) 垂直 微 指令 


是 如 何 安排 的 。 在 每 个 例 程 中 微 指 令 图 16-1 典型 的 微 指 令 格式 
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是 顺序 执行 的 ， 在 例 程 的 终端 有 一 个 分 支 或 转移 微 指令 ， 指 出 下 面 将 到 何 处 执行 。 这 里 还 有 一 个 
专门 的 执行 周期 例 程 ， 它 的 目的 仅 在 于 ， 根 据 当前 的 操作 码 
指明 哪 一 个 机 器 指令 (AND, ADD 等 ) 例 程 将 被 执行 。 : PNIA 
图 16-2 的 控制 存储 器 是 控制 器 整体 操作 的 简明 描述 ， | 转移 至 间接 或 执行 


它 定义 了 在 每 个 周期 ( 取 指 、 间 接 、 执 行 、 中 断 ) 内 将 要 


完成 的 微 操 作 序 列 ， 它 也 指定 了 这 些 周期 的 顺序 。 如 果 没 有 间接 周期 例 程 
别 的 事情 ， 这 个 表示 可 作为 一 个 说 明 具 体 计算 机 控制 器 功能 
的 有 用 工具 。 但 它 还 不 仅 只 能 作为 一 个 设计 说 明 工具 ， 它 亦 中 断 周期 例 程 
是 实现 控制 器 的 一 种 方式 。 
执行 周期 例 程 

16.1.2 ” 微 程序 控制 器 l 

图 16-2 ARE PEARSE Ae AR ARTA Dm, e anne 
下 面 以 执行 这 个 微 程序 的 简单 方式 来 讨论 控制 器 的 实现 。 REESE 

图 16-3 表示 了 这 种 控制 器 实现 方式 的 关键 部 件 : 控制 eooo ADDAR 





存储 器 (control memory) 存 有 一 组 微 指令 ; 控制 地 址 寄存 转移 至 取 指 或 中 断 
器 (control address register) 含有 下 面 即将 被 读 取 的 微 指 令 
地 址 ; 当 一 条 微 指令 由 控制 存储 器 读 出 后 ， 即 被 传送 到 控制 
缓冲 寄存 器 (control buffer register) 。 此 寄存 器 的 左 半 部 分 
与 控制 器 发 出 的 控制 线 相连 接 。 于 是 ， 由 控制 存储 器 读 一 条 
微 指令 等 同 于 执行 这 条 微 指令 。 图 中 所 示 的 第 三 个 部 件 是 定 
序 器 (sequencing unit) ， 它 向 控制 地 址 寄存 器 装 人 地 址 并 发 
出 读 命 令 。 图 16-2 ”控制 存储 器 组 织 

让 我 们 更 详细 地 考察 这 种 结构 ， 如 图 16-4 所 示 。 将 此 图 与 图 15-4 相 比 ， 此 控制 器 仍 有 相同 
的 输入 CIR, ALU 标志 、 时 钟 ) 和 输出 〈 控 制 信号 ) 。 此 控制 器 的 功能 如 下 所 述 。 

(1) 为 执行 一 条 指令 ， 定 序 逻 辑 发 出 一 个 读 命令 给 控制 存储 器 。 

(2) 控制 地 址 寄存 器 指定 的 一 个 字 读 人 到 控制 缓冲 寄存 器 。 

(3) 控制 缓冲 寄存 器 的 内 容 生 成 控制 信号 ， 并 为 定 序 逻辑 提供 下 一 条 地 址 信息 。 

(4) 定 序 逻 辑 根 据 这 个 地 址 信息 和 ALU 标志 ， 将 一 个 新 地 址 装 入 到 控制 地 址 寄存 器 。 所 有 
这 些 事情 都 发 生 在 一 个 时 钟 周 期 内 。 

上 述 的 第 4 个 步骤 还 需 进 一 步 说 明 。 在 每 条 微 指令 结束 时 ， 定 序 逻 辑 都 要 将 一 新 的 地 址 装 入 
到 控制 地 址 寄存 器 。 这 取决 于 ALU 标志 和 控制 缓冲 寄存 器 的 内 容 ， 它 要 进行 三 选 一 的 决策 。 

© 取 顺 序 下 一 条 微 指 令 : 加 1 到 控制 地 址 寄存 器 。 

。 基于 跳 转 微 指 令 转 移 到 一 个 新 的 例 程 : 将 控制 缓冲 寄存 器 的 地 址 字段 装 入 控制 地 址 寄 

TFA o 
。 转移 到 一 个 机 器 指令 例 程 : 根据 IR 中 的 操作 码 向 控制 地 址 寄存 器 装 人 机 器 指令 例 程 的 第 
一 条 微 指 令 。 

图 16-4 显示 了 两 个 标记 有 译 码 器 (decoder) 的 模块 。 上 方 的 译 码 器 将 IR 中 的 地 址 码 翻译 为 
一 个 控制 存储 器 地 址 。 下 方 的 译 码 器 不 用 于 水 平 微 指令 ， 而 是 用 于 垂直 微 指 令 (vertical microin- 
struction) (图 16-1b) 。 正 如 前 面 所 提 到 过 的 ， 以 水 平 微 指令 方式 ， 微 指令 的 控制 字段 中 的 每 一 
位 都 接 到 控制 线 。 以 垂直 指令 方式 ， 一 个 代码 用 于 表示 将 被 完成 的 一 项 动作 ， 例 如 MAR 
(PC), ， 而 由 此 译 码 器 将 这 个 代码 转换 为 对 应 的 控制 信号 。 垂 直 微 指令 的 优点 在 于 它 比 水 平 微 指 
令 更 紧缩 (位 数 少 ) ， 代 价 是 一 个 小 量 的 附加 逻辑 和 时 间 延 迟 。 





= ~o lOF (RR 
”转移 至 取 指 或 中 断 | 
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CPU 内 部 至 系统 总 线 
控制 缓冲 寄存 器 控制 信号 的 控制 信号 


图 16-3 控制 器 微 结构 图 16-4 微 程序 控制 器 的 运作 


16.1.3 Wilkes 控制 


正如 前 面 所 说 过 的 ，Wilkes 在 1951 年 最 早 提出 使 用 微 程序 控制 器 。 这 个 方案 接着 被 修正 并 
形成 更 详尽 的 设计 [WILK53 ] 。 现 在 考察 这 个 最 初 的 方案 仍 是 具有 指导 意义 的 。 

Wilkes 关注 的 是 为 设计 控制 器 开发 出 一 种 系统 化 的 方法 。 他 提出 的 配置 方案 如 图 16-5 所 示 。 
系统 的 核心 是 一 个 阵列 ， 其 中 有 些 部 分 连接 着 二 极 管 。 在 一 个 机 器 周期 内 ， 阵 列 的 一 行 被 激活 。 
阵列 中 连接 着 二 极 管 的 地 方 (图 中 以 圆 点 所 示 ) 产生 信号 。 每 行 的 前 一 部 分 产生 控制 CPU 操作 
的 控制 信和 号， 后 一 部 分 产生 下 一 周期 将 要 激活 的 行 地 址 。 于 是 ， 阵 列 的 每 一 行 是 一 条 微 指令 ， 整 
个 阵列 则 是 控制 存储 器 。 

机 器 周期 开始 时 ， 将 要 激活 的 行 地 址 保存 在 寄存 器 I 中 。 这 个 地 址 输入 到 译 码 器 ， 当 它 被 一 
个 时 钟 脉冲 启动 时 ， 它 激活 阵列 的 某 一 行 。 在 此 周期 ,或 是 指令 寄存 器 中 的 操作 码 ， 或 是 行 的 后 
一 部 分 ， 被 传送 到 寄存 器 工 ， 这 取决 于 相应 的 控制 信和 号。 然后 由 一 个 时 钟 脉冲 打开 寄存 器 DB) AF 
存 器 I 的 门 。 交 替 的 时 钟 脉冲 用 于 启动 阵列 行 和 寄存 器 工 到 寄存 器 工 的 传送 。 因 为 译 码 器 是 一 个 
简单 的 组 合 电路 ， 故 需要 这 种 双 寄 存 器 的 安排 ， 否 则 ， 只 使 用 一 个 寄存 器 的 话 ， 在 一 个 周期 内 输 
出 可 能 会 反馈 到 输入 ， 引 起 一 种 不 稳定 的 状况 。 

这 种 思想 很 类 似 于 前 面 ( 见 图 16-1a) 所 介绍 的 水 平 微 程 序 设计 方法 。 主 要 的 不 同 在 于 : 在 
前 面 的 介绍 中 ， 控 制 地 址 寄存 器 能 递增 1， 得 到 下 一 顺序 地 址 ; 而 在 Wilkes 方案 中 ， 下 一 地 址 是 
在 微 指令 中 。 为 准许 转移 ， 一 行 必须 包含 两 个 地 址 部 分 ， 受 控 于 一 个 条 件 信 号 (例如 标志 ) ， 如 
图 16-5 所 示 。 

为 证 实 所 提出 的 思想 ，Wilkes 提供 了 一 个 以 这 种 方式 实现 控制 器 的 简单 机 器 。 这 个 例子 是 
已 知 的 第 一 个 微 程序 CPU 设计 。 这 里 再 一 次 重复 它 是 有 益 的， 因为 它 说 明了 许多 当代 微 程 序 设 
计 的 原则 。 

此 原 机 型 CPU 包括 如 下 寄存 器 : 

A 被 乘 数 
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控制 信号 
K] 16-5 Wilkes 微 程序 控制 器 


B 累加 器 〈 低 半 部 分 ) 

C 累加 器 (高 半 部 分 ) 

D 移 位 寄存 器 

另外 ， 还 有 只 由 控制 器 可 访问 的 三 个 寄存 器 和 两 个 1 位 的 标志 。 三 个 寄存 器 是 : 

E 用 作 存 储 器 地 址 寄存 器 (MAR) 和 暂时 存储 的 寄存 器 

F 程序 计数 器 

G 男 一 个 暂时 寄存 器 ， 用 作 计 数 

K 16-1 列 出 了 这 个 例子 的 机 器 指令 集 。 表 16-2 是 实现 控制 器 的 全 部 微 指令 集 ， 以 符号 形式 
表示 。 于 是 ， 完 整定 义 此 系统 需要 38 条 微 指令 。 

表 中 第 1 列 给 出 了 每 个 微 指令 的 地 址 〈 行 号 ) 。 那 些 对 应 着 操作 码 的 地 址 被 标记 出 来 。 例 
如 ， 当 过 到 加 法 指令 时 ,位 置 5 处 的 微 指令 被 执行 。 第 2 列 与 第 3 列 分 别 表示 ALU 和 控制 寄存 
器 单元 发 生 的 动作 。 每 个 符号 表示 都 必须 翻译 为 一 组 控制 信号 〈 微 指令 的 位 ) 。 第 4 列 与 第 5 列 
表示 两 个 标志 〈 和 触发 器 ) 的 设 定 和 使 用 。 第 4 列 指定 此 标志 的 信号 置 位 。 例 如 ，(1) C 意味 着 
由 寄存 器 C 的 符号 位 来 置 位 标志 1。 若 第 5 列 有 一 标志 识别 符 ， 那么 第 6 列 与 第 7 列 就 会 含有 两 
个 可 选 的 微 指令 地 址 。 否 则 ， 第 6 列 指定 将 被 取 的 下 一 条 微 指令 地 址 。 

微 指令 0 到 4 构成 了 取 指 周期 。 微 指令 4 将 操作 码 提交 给 译 码 器 ， 译 码 器 产生 对 应 于 待 取 机 
器 指令 的 微 指令 地 址 。 如 果 细 心 研究 表 16-2 ， 读 者 不 难 推导 出 控制 器 的 全 部 功能 。 


表 16-2 Wilkes 例子 的 微 指 令 


标记 法 : A, B, C, … 表示 算术 人 逻辑 单元 中 不 同 的 寄存 器 。C 到 D 表示 开关 电路 把 寄存 器 C 的 输出 连接 到 寄存 器 D 
的 输入 。(D + A) 到 C 表示 寄存 器 A 的 输出 被 连接 到 加 法 器 的 一 个 输入 上 (寄存 器 D 被 固定 连接 到 加 法 器 的 另 一 个 
输入 上 ) ， 而 加 法 器 的 输出 连接 到 寄存 器 C。 单 引号 括 起 来 的 数值 符号 (例如 “n” ) 表示 一 个 源 ， 它 的 输出 是 以 最 低 
有 效 数字 为 单位 的 数值 no 
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算术 单元 控制 寄存 器 单元 
2 存储 器 到 C 
3 
本 一 
s 6 17 
H 7 0 
v 8 27 
T 9 C 到 存储 器 25 
U 10 C 到 存储 器 0 
R 11 Bal D 19 
L 12 2 
G 13 18 
I 14 0 
0 15 0 
16 0 
17 0 
18 0 1 
19 D F] B(R) * (G-‘1) BIE 20 
20 Cc 到 D 21 
21 D 到 C(R) 11 0 
22 万 到 C(L) * (G- 1°’) 到 E 23 
23 B BID 24 
28 ERIC (1)B, 29 
29 D Bl B(R) 30 
32 (D+A) 3 C ee ee 28 33 
33 Rae | 34 
pua o oo 
36 DAC 0 
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注 : 右 移 ， 算 术 单 元 中 的 开关 电路 的 设计 为 : 寄存 器 C 的 最 低位 放 入 到 寄存 器 B 的 最 高 位 中 (在 右 移 操 作 期 间 )， 


而 寄存 器 C 的 最 高 位 (符号 位 ) 被 重复 (这 样 ， 对 于 一 个 负数 ， 右 移 结果 也 是 正确 的 ) 。 
左 移 ， 开 关 电路 被 简单 地 设计 为 使 得 ， 在 左 移 微 操作 期 间 ， 寄 存 器 B 的 最 高 位 移 到 寄存 器 C 的 最 低位 。 
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16.1.4 RA 


使 用 微 程序 实现 控制 器 的 优点 在 于 ， 简 化 了 控制 器 的 设计 任务 ， 实 现 起 来 既成 本 较 低 ， 也 能 
减少 出 错 机 会 。 硬 布线 控制 器 需要 一 个 复杂 的 逻辑 ， 用 来 使 指令 周期 的 众多 微 操 作 按 序 执行 。 而 
微 程序 控制 器 的 译 码 器 和 定 序 逻 辑 单元 是 很 简单 的 逻辑 电路 。 

微 程序 控制 器 的 主要 缺点 是 : 要 比 采 用 相同 或 相近 半导体 工艺 的 硬 布线 控制 器 慢 一 些 。 尽 
管 如 此 ， 由 于 它 的 易 实现 性 ， 使 微 程序 设计 成 为 当今 CISC 控制 器 的 主导 技术 。 而 对 于 RISC 处 理 
器 ， 由 于 它们 的 简单 指令 格式 ， 一 般 使 用 硬 布线 控制 器 。 下 面 更 详尽 地 讨论 微 程序 方法 。 


16.2 (hier 

© 微 指令 定 序 (microinstruction sequencing); 由 控制 存储 器 得 到 下 一 条 微 指令 。 

© 微 指令 执行 〈microinstruction execution) : 产生 执行 微 指 令 的 控制 信号 。 

设计 控制 器 时 这 些 任务 必须 一 起 考虑 ， 因 为 二 者 都 影响 微 指 令 格 式 和 控制 器 时 序 。 这 一 节 将 重点 
关注 定 序 问题 ， 而 尽 可 能 少 提 及 有 关 格 式 与 时 序 的 问题 ， 后 两 个 问题 留待 下 一 节 详 细 讨 论 。 


16.2.1 设计 考虑 


设计 微 指令 定 序 要 考虑 到 两 个 问题 : 微 指令 的 大 小 和 地 址 生成 时 间 。 第 一 个 问题 是 明显 的 ， 
减 小 微 指令 的 大 小 就 能 节省 控制 存储 器 的 成 本 ; 第 二 个 问题 是 尽 可 能 快 地 执行 微 指 令 的 最 简单 
的 要 求 。 

执行 微 程序 时 ， 获 得 下 面 将 要 执行 的 微 指令 的 地 址 有 如 下 三 种 情况 : 

。 由 指令 寄存 器 确定 

e 下 一 顺序 地 址 

。 转移 
第 一 种 情况 在 每 指令 周期 中 只 出 现 一 次 ， 发 生 在 指令 刚刚 取 来 之 后 。 第 二 种 情况 在 大 多 数 情况 
下 是 最 普遍 的 ， 然 而 设计 不 能 只 为 顺序 存 取 来 优化 。 转 移 ， 无 论 是 有 条 件 还 是 无 条 件 的 ， 都 是 微 
程序 必 不 可 少 的 部 分 。 而 且 ， 微 指令 序列 倾向 于 短小 , 每 3 ~4 条 微 指 令 之 后 就 可 能 有 一 个 转移 
发 生 [SIEW82] 。 于 是 ， 为 微 指 令 转移 设计 一 种 紧缩 的 、 高 时 效 的 技术 是 重要 的 。 


16.2.2 EFRR 


必须 根据 当前 的 微 指 令 、 条 件 标 志和 指令 寄存 器 的 内 容 ， 产 生 下 一 微 指令 的 控制 存储 器 地 
址 。 已 有 很 多 技术 被 采用 ， 我 们 以 图 16-6 到 图 16-8 来 说 明 这 些 技术 的 常规 分 类 。 以 微 指令 中 的 
地 址 信息 为 例 ， 可 以 大 致 分 为 双 地 址 字段 、 单 地 址 字段 、 可 变 格式 三 类 。 

最 简单 的 方法 是 在 每 条 微 指令 中 提供 两 个 地 址 字段 。 图 16-6 展示 了 如 何 使 用 这 些 地 址 字段 ， 
图 中 使 用 了 一 个 多 路 选择 器 (或 多 路 器 ) ， 两 个 地 址 字段 和 指令 寄存 器 的 内 容 连 接 到 这 个 多 路 选 
择 器 作为 输入 。 多 路 选择 器 根据 地 址 选择 输入 ， 发 送 两 个 地 址 之 中 的 某 一 个 或 操作 码 到 控制 地 
址 寄存 器 (CAR). CAR 接着 被 译 码 以 产生 下 一 微 指令 地 址 。 由 一 转移 逻辑 (branch logic) 模块 
接收 控制 器 标志 和 微 指令 控制 部 分 的 输入 ， 向 多 路 选择 器 提供 多 路 选择 信号 。 

虽然 双 地 址 字段 方法 简单 ， 但 它 的 微 指令 比 其 他 方法 需要 更 多 的 位 。 添 加 一 些 逻 辑 就 可 以 做 到 
节省 。 一 种 普遍 的 方法 是 只 有 单 地 址 字段 (参见 图 16-7) 。 按 照 这 种 方法 ， 下 一 地 址 的 选择 项 是 : 

。 地 址 字段 

。 指令 寄存 器 代码 

。 下 一 顺序 地 址 
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图 16-6 转移 控制 逻辑 : 双 地 址 字段 图 16-7 转移 控制 逻辑 : 单 地 址 字段 


地 址 选择 信和 号 确定 哪 项 被 选中 ， 这 种 方法 将 地 址 字段 减少 到 1 个 。 然 而 要 注意 ， 一 般 不 会 经 常用 
到 此 地 址 字段 。 因 此 ， 在 微 指令 编码 策略 中 存在 着 某 种 低 效 因素 。 

另外 的 方法 是 提供 两 种 完全 不 同 的 指令 格式 〈 见 图 16-8 ) 。 一 位 字段 用 于 指定 哪 种 格式 正 被 
使 用 。 在 一 种 格式 中 ， 其 余 的 位 用 于 产生 控制 信号 。 在 另 一 种 格式 中 ， 某 些 位 用 于 启动 转移 逻辑 
模块 ， 剩 余 的 位 用 来 提供 地 址 。 以 第 一 种 格式 ， 下 一 地 址 或 是 下 一 顺序 地 址 ， 或 是 由 指令 寄存 器 
来 获取 的 地 址 。 在 第 二 种 格式 中 ， 指 定 了 一 个 有 条 件 或 无 条 件 转移 。 这 种 方法 的 缺点 之 一 是 每 一 
条 转移 微 指令 将 耗费 一 个 时 钟 周期 。 其 他 方法 的 地 址 产生 ， 与 控制 信号 生成 在 同一 周期 ， 从 而 减 
少 了 控制 存储 器 的 存 取 。 





图 16-8 转移 控制 逻辑 可 变 格式 
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刚才 介绍 的 方法 只 是 通用 方法 。 具 体 的 实现 常常 是 这 些 技术 的 组 合 或 变异 。 


16.2.3 地址 生成 


我 们 已 从 格式 考虑 和 通常 录 辑 需求 的 观点 查看 了 定 序 问题 ， 必 一 观点 是 考虑 取得 或 计算 出 
下 一 地 址 的 各 种 方式 。 

K 16-3 列 出 了 各 种 格式 生成 技术 。 这 些 可 分 成 显 式 (explicit) 技术 和 隐 式 (implicit) 技术 
两 大 类 。 显 式 技术 在 微 指 令 中 直接 给 出 可 用 地 址 ， 隐 式 技术 要 求 附 加 逻辑 来 产生 地 址 。 

我 们 已 和 显 式 技术 打 过 交道 了 。 对 于 双 地 址 字 








段 法 ， 每 条 微 指令 都 有 两 个 可 选 地 址 可 用 。 使 用 单 表 16-3_ 微 指令 地 址 生成 技术 
地 址 字段 法 或 可 变 格式 ， 能 实现 各 种 转移 微 指令 。 IR 隐 式 
一 个 条 件 转移 微 指令 依赖 于 如 下 类 型 信息 : 双 地 址 字段 | 映射 (mapping) 

© ALU 标志 ; 无 条 件 转移 | til (addition) 





© 机 器 指令 的 操作 码 部 分 或 地 址 模式 字段 ; 条 件 转移 剩余 控制 (residual control) 


o 选 定 寄存 器 的 一 部 分 ， 如 符号 位 ; 

。 控制 器 内 的 状态 位 。 

几 种 隐 式 技术 也 得 到 普遍 采用 。 其 中 之 一 ， 上 映射， 实际 上 是 所 有 设计 都 需要 的 。 机 器 指令 的 
操作 码 部 分 必须 映射 成 微 指令 地 址 。 这 在 每 指令 周期 中 仅 出 现 一 次 。 

普通 的 隐 式 技术 是 将 两 个 地 址 部 分 相 加 或 组 合 来 形成 一 个 完整 的 地 址 。IBM S/360 系列 
[TUCK67] 以 及 S/370 多 种 型 号 都 采用 这 种 技术 。 下 面 以 IBM 3033 作为 例子 来 说 明 此 技术 。 

IBM 3033 的 控制 地 址 寄存 器 是 13 位 长 ， 如 图 16-9 所 示 。 它 能 分 成 两 个 地 址 部 分 ， 高 8 位 
(00 ~07) 一 般 在 一 个 指令 周期 到 下 一 个 指令 周期 之 间 都 不 会 发 生 改 变 。 微 指令 执行 期 间 ， 此 8 
位 直接 由 微 指令 的 8 位 字段 (BA 字段 ) 复制 到 控制 地 址 寄存 器 的 高 8 位 。 这 就 在 控制 存储 器 中 
选 定 了 一 个 32 条 微 指令 的 块 。 控 制 





00 0 08 09 10 





地 址 寄存 器 的 剩余 5 位 用 于 指定 此 块 Po). 

中 待 取 微 指令 的 具体 地 址 。 这 5 位 的 1 
每 一 位 都 由 当前 微 指令 的 一 个 4 位 字 | | Bea | BE) | 
段 (有 一 位 是 7 位 字段 } 所 确定 ; 这 BA(8) — a BI) 
些 字段 指定 了 设置 相应 位 的 条 件 。 例 图 16-9 IBM 3033 控制 地 址 寄存 器 


如 ， 根 据 最 近 一 次 的 AL 运算 是 否 
出 现 进位 ， 将 控制 地 址 寄存 器 的 一 位 设置 为 0 或 1。 

表 16-3 所 列 的 最 后 一 种 方法 是 剩余 控制 。 这 种 方法 涉及 使 用 先前 已 保存 在 控制 器 内 的 一 个 
暂 存 装置 中 的 微 指令 地 址 。 例 如 ， 某 些微 指令 集 具 有 子 程序 调用 功能 ， 一 个 内 部 寄存 器 或 寄存 器 
栈 用 于 和 暂 存 子 程序 返回 地 址 。 使 用 这 一 方法 的 例子 是 LSI-11 机 ， 下 面 来 考察 它 。 


16.2.4 LSI-11 微 指令 定 序 

LSI-11 是 PDP-11 的 微型 机 版 本 ， 系 统 的 主要 部 件 安装 在 单 板 上 。LSI-11 的 实现 使 用 了 微 程 
序 控制 器 [SEBE76]。 

LSI-11 的 微 指 令 有 22 位 ， 控 制 存储 器 的 容量 是 2K x22 位 字 。 以 如 下 5 种 方式 来 确定 下 一 微 
指令 的 地 址 。 

© 下 一 顺序 地 址 : 在 不 出 现 另外 的 情况 时 ， 控 制 器 的 控制 地 址 寄存 器 的 内 容 增 1。 

e 操作 码 映 射 : 在 每 个 指令 周期 开始 时 ， 由 操作 码 确 定 下 一 微 指令 地 址 。 

e 子 程序 机 制 : 后 文 有 说 明 。 

。 中 断 测试 : 某 些 微 指令 有 测试 中 断 功 能 ， 若 中 断 已 出 现 ， 它 确定 下 一 条 微 指令 的 地 址 。 
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。 RB: 使 用 了 有 条 件 和 无 条 件 的 转移 微 指令 。 

LSI-11 控制 器 提供 了 单 层 (one - level) 子 程序 调用 的 机 制 。 每 个 微 指令 都 有 一 位 用 于 此 目 
的 。 当 此 位 置 位 时 ， 控 制 地 址 寄存 器 更 新 过 的 内 容 装 入 一 个 11 位 的 返回 寄存 器 。 子 程序 调用 结 
束 时 ， 指 示 返 回 的 微 指令 将 使 返回 寄存 器 的 内 容 装 和 人 控制 地 址 寄存 器 。 

此 返回 是 无 条 件 转移 指令 的 一 种 形式 。 无 条 件 转移 指令 的 另 一 种 形式 是 把 微 指令 中 的 11 位 
地 址 装 入 控制 地 址 寄存 器 中 。 条 件 转移 指令 使 用 了 微 指 令 内 的 一 个 4 位 测试 码 ， 以 对 ALU 各 种 
条 件 码 的 测试 进行 决策 。 若 条 件 不 成 立 ， 下 一 顺序 地 址 将 被 选择 ; 若 成 立 ， 微 指令 中 的 8 位 被 装 
入 控制 地 址 寄存 器 的 低 8 位 。 这 人 允许 在 一 个 256 字 的 存储 器 页 内 进行 跳 转 。 

由 上 可 见 ，LSI- 11 的 控制 器 内 包括 了 一 个 强 有 力 的 地 址 定 序 机 制 。 这 就 允许 微 程序 设计 人 
员 有 相当 的 灵活 性 ， 并 使 微 程序 设计 任务 能 变 得 容易 些 。 男 一 方面 ， 这 种 方法 要 比 功 能 简单 的 控 
制 器 需要 更 多 的 控制 逻辑 。 


16.3 微 指令 执行 

微 指令 周 期 是 一 个 微 程序 CPU 最 基本 的 事件 。 每 个 周期 有 两 部 分 组 成 : 取 指 和 执行 。 取 微 
指令 这 部 分 前 面 已 介绍 过 ， 它 由 微 指令 地 址 的 生成 时 间 所 确定 。 本 节 介绍 微 指 令 的 执行 。 

请 思考 一 下 ， 微 指令 的 执行 会 引起 什么 发 生 。 基 本 上 ， 执 行 的 作用 在 于 产生 控制 信和 号， 一些 
控制 信号 发 往 CPU 内 部 ， 另 一 些 送 往外 部 控制 总 线 或 其 他 外 部 接口 。 作 为 一 种 附带 功能 ， 下 一 
条 微 指令 地 址 也 在 微 指令 执行 期 间 被 确定 。 noeaE 

前 面 描述 建议 的 一 种 控制 器 组 织 见 图 16-10, or 
它 是 为 强调 本 节 内 容 对 图 16-4 稍 加 改进 的 版 本 。 ALU 
此 图 的 主要 模块 现在 都 应 是 清楚 的 。 定 序 逻 辑 模 ”标志 一 
块 包含 了 完成 上 节 所 述 功 能 的 逻辑 。 它 为 生成 下 
一 微 指 令 地 址 ， 使 用 了 指令 寄存 器 、ALU 标志 、 
控制 地 址 寄存 器 (为 增 1) 和 控制 缓冲 寄存 器 作 
为 输入 。 最 后 一 项 可 提供 一 个 实际 地 址 、 控 制 位 
或 者 二 者 皆 有 。 此 模块 由 时 钟 驱动 ， 时 钟 确定 了 
微 指 令 周 期 的 定时 。 

控制 逻辑 模块 生成 控制 信号 ， 这 些 控制 信号 可 
以 看 作 是 微 指令 某 些 位 的 逻辑 函数 。 应 当 清 楚 ， 微 
指令 的 格式 和 内 容 将 决定 控制 逻辑 模块 的 复杂 程度 。 


16.3.1 微 指令 的 分 类 法 


微 指 令 可 用 几 种 方式 分 类 。 文 献上 普遍 使 用 
的 分 类 方法 包括 : ~ 

e 垂直 /水 平 (vertical/horizontal) 信号 信号 

。 压缩 / 非 压缩 ( packed/unpacked ) 图 16-10 ”控制 器 组 织 

© 硬 / 软 微 程 序 设 计 (hard/soft microprogramming ) 

e 直接 /间接 编码 ( direct/undirect ) 
所 有 的 这 些 都 依赖 于 微 指令 格式 。 这 些 术 语 每 一 个 都 不 会 在 文献 上 以 完全 一 致 的 方式 使 用 。 然 
而 ， 考 察 这 些 分 类 的 特征 能 用 来 说 明 微 指令 设计 可 供 选择 的 方法 。 下 面 首 先 看 看 支持 所 有 这 些 
分 类 特征 的 关键 设计 出 发 点 ， 然 后 查看 每 一 分 类 特征 所 表示 的 概念 。 

在 Wilkes 策略 中 [WILK51 ] ， 微 指令 的 每 一 位 要 么 直接 产生 一 个 控制 信号 ， 要 么 直接 产生 
下 一 条 微 指令 地 址 的 一 位 。 我 们 已 经 在 前 一 节 中 看 到 ， 越 复杂 的 地 址 定 序 方式 ， 就 可 能 使 用 越 少 
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的 微 指令 位 。 类 似 的 设计 选择 也 存在 于 微 指令 中 产生 控制 信号 部 分 的 那些 位 。 通 过 编码 控制 信 
息 ， 而 后 又 解码 产生 控制 信号 ， 可 以 减少 微 指 令 中 涉及 控制 信号 产生 所 需 的 位 数 。 

这 种 编码 怎样 来 实现 ? 要 回答 这 个 问题 ， 可 以 假设 一 个 控制 器 要 驱动 天 个 不 同 的 内 部 和 外 
部 控制 信号 。 在 Wilkes 设计 策略 中 ， 微 指令 中 需要 分 配 天 个 位 专门 用 于 此 目的 。 这 就 允许 在 任 
一 指令 周期 内 产生 2" 个 可 能 的 控制 信号 组 合 。 如 果 我 们 发 现 不 是 所 有 的 组 合 都 是 要 用 到 的 ， 那 
么 我 们 可 能 做 得 更 节省 。 例 如 : 

。 两 个 源 不 能 被 打开 通 向 到 同一 目的 (例如 图 16-5 中 的 C, 和 Cs ) 。 

。 一 个 寄存 器 不 能 同时 既 作 为 源 又 作为 目的 〈 例 如 图 16-5 中 的 Cs 和 Cu ) 。 

。 一 次 只 能 向 ALU 提交 一 种 控制 信号 样式 。 

。 一 次 只 能 向 外 部 控制 信号 提交 一 种 控制 信号 样式 。 

故 对 一 个 给 定 的 CPU， 可 列 出 所 有 可 能 的 有 效 控制 信号 组 合 ,假设 有 Q 种 ,而 0 <2 。 这 些 
HAREL log, O 来 编码 ， 而 (log,0) <K。 这 将 是 保留 了 所 有 人 允许 的 控制 信号 组 合 的 最 紧凑 的 编码 
格式 。 实 际 上 不 会 使 用 这 种 编码 格式 ， 理 由 如 下 : 

。 编程 像 纯 译 码 式 ( Wilkes) 策略 那样 困难 。 关 于 这 点 下 面 还 要 进一步 说 明 。 

。 它 要 求 更 复杂 的 控制 逻辑 模块 ， 因 而 速度 太 慢 。 

替代 的 是 使 用 某 些 折 中 方案 ， 这 有 两 种 : 

。 使 用 比 最 低 要 求 的 位 数 更 多 的 位 来 编码 。 

o 某 些 物理 上 人 允许 的 组 合 实际 上 却 是 不 可 能 编码 的 。 

后 一 种 折 中 方式 有 减少 位 数 的 效应 ， 但 结果 是 使 用 比 log, Q 更 多 的 位 。 

下 一 小 节 将 讨论 一 些 具体 的 编码 技术 。 本 小 节 的 其 余部 分 介绍 编码 效果 ， 以 及 描述 它 所 用 
的 术语 。 

据 上 所 述 ， 我 们 能 看 出 微 指令 格式 中 的 控制 信号 能 形成 一 个 谱系 。 一 端 是 每 个 控制 信号 有 
一 位 ， 另 一 端 是 使 用 高 度 编码 格式 。 表 16-4 列 出 了 微 程 序 控 制 器 的 其 他 一 些 特征 ， 这 些 特 征 也 
是 沿 谱系 分 布 的 。 这 些 特 征 谱系 一 般 说 来 是 由 编码 谱系 所 确定 的 。 





























表 中 第 二 对 特征 项 是 相当 明白 的 。 纯 Wilkes 16-4 微 指 令 谱系 
策略 将 要 求 更 多 的 位 。 显 然 ， 这 个 极端 设计 方案 特征 
展现 了 硬件 最 详尽 的 细节 。 任 何 控制 信号 都 分 别 不 编码 | 高 度 编码 
由 微 指 令 各 位 控制 。 编 码 的 方案 是 以 一 种 功能 或 ”多 位 少数 位 
资源 整合 的 方式 来 进行 的 ， 于 是 微 程 序 设 计 人 员 硬件 细节 观点 硬件 总 体 观 点 
是 在 更 高 、 较 少 细 节 的 级 别 上 看 待 CPU 的 。 而 编程 困难 编程 容易 
且 ， 编 码 也 是 设计 用 来 减轻 微 程 序 设计 负担 的 。 完全 利用 了 并 发 性 没有 完全 利用 并 发 性 
很 显然 ， 理 解 并 指挥 好 所 有 控制 信号 是 一 件 困难 很 少 或 没有 逻辑 控制 复杂 的 逻辑 控制 
的 任务 。 正 如 前 面 所 提 到 的 ， 编 码 的 一 个 通常 结 THR 执行 慢 
RE: 禁止 使 用 某 些 理论 上 可 允许 的 但 实际 上 不 ”优化 性 能 优化 编程 
允许 的 控制 信号 组 合 。 术语 





前 面 一 段 是 以 微 程序 设计 人 员 的 观点 来 讨 非 压 缩 的 (unpacked) EMR (packed) 
论 微 指令 的 。 但 是 ， 编 码 程度 亦 可 由 它 的 硬件 水 平 的 (horizontal) 垂直 的 (vertical) 
效应 来 观察 。 使 用 一 种 纯 非 编码 格式 ， 不 需要 E (hard) 软 的 (soft) 
或 较 少 需要 译 码 逻辑 ; 每 一 位 产生 一 个 具体 控 
制 信号 。 随 着 使 用 的 编码 策略 越 紧 缩 、 越 总 体 化 ， 所 需要 的 译 码 逻辑 越 复 杂 。 这 转 而 又 影响 性 
能 ， 因 为 需要 更 长 的 时 间 ， 使 信号 通过 更 复杂 的 控制 逻辑 模块 的 各 个 门 传播 到 目的 地 。 于 是 ， 执 
行 编码 了 的 微 指令 要 比 执行 非 编 码 的 微 指令 花费 更 多 的 时 间 。 

FÆ, K 16-4 所 列 全 部 特征 也 归 入 了 设计 策略 谱系 。 通 常 ， 归 属 靠近 谱系 左 端的 设计 着 眼 
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于 优化 控制 器 的 性 能 ， 归 属 靠近 右 端 的 设计 则 是 更 关注 优化 微 程序 设计 的 过 程 。 事 实 的 确 如 此 ， 
靠近 谱系 右 端的 微 指令 看 起 来 很 像 机 器 指令 集 。 这 种 情况 的 一 个 好 的 例子 是 本 节 稍 后 要 介绍 的 
LSI-11 设 计 。 一 般 当 目标 是 简化 控制 器 实现 时 ,设计 将 靠近 谱系 的 左 端 。 本 节 最 后 讨论 的 IBM 
3033 设计 就 属于 这 一 类 。 后 面 将 会 看 到 ， 某 些 系 统 准 许 各 类 用 户 使 用 同样 的 微 指令 来 构造 不 同 
的 微 程序 。 这 种 情况 下 ， 设 计 很 可 能 靠近 谱系 的 右 端 。 

现在 能 介绍 前 面 引 入 的 术语 了 。 表 16-4 指出 这 三 “对 ”(pair) 术语 与 微 指令 集 的 关系 。 实 
际 上 ， 所 有 这 些 “ 对 ”描述 的 都 是 同样 的 事情 ， 只 是 强调 的 是 不 同 的 设计 特征 。 

微 指令 压缩 的 程度 关系 到 给 定 控制 任务 和 指定 微 指令 位 之 间 的 等 同 程度 。 随 着 位 变 得 更 紧 
缩 ， 给 定数 目的 位 将 提供 更 多 的 信息 。 于 是 ， 压 缩 暗示 着 编码 。 水 平和 垂直 这 两 个 术语 与 微 指令 
相对 宽度 有 关 。[ SIEW82] 推荐 了 一 个 经 验 规则 ， 垂 直 微 指令 的 长 度 在 16 ~40 位 范围 内 ， 水 平 
微 指 令 的 长 度 在 40 ~ 100 位 范围 内 。 硬 和 软 的 微 程序 编程 这 两 个 术语 ， 用 来 暗示 与 控制 信号 和 硬 
件 布局 相关 的 紧密 程度 。 硬 的 微 程序 通常 是 不 变 的 ， 并 保存 在 一 个 只 读 存 储 器 中 。 软 的 微 程序 是 
可 变 的 ， 意味 着 是 可 由 用 户 微 程序 编程 所 改变 的 。 

另外 一 对 术语 是 本 小 节 开 头 提 到 的 直接 编码 和 间接 编码 ， 下 面 就 转向 这 个 主题 。 


16.3.2 ” 微 指令 编码 


实际 上 ， 微 程序 控制 器 的 设计 没有 使 用 纯 非 编码 的 或 水 平 的 微 指令 格式 ， 但 至 少 要 使 用 革 
种 程度 的 编码 方式 ， 以 减 小 控制 存储 器 的 宽度 和 简 
化 微 程序 设计 任务 。 

编码 的 基本 技术 如 图 16-11a 所 示 。 微 指令 由 
一 组 字段 组 成 ， 每 个 字段 有 一 代码 ， 经 译 码 产生 一 
个 或 多 个 控制 信号。 ... 

让 我 们 考虑 这 种 情况 的 含义 。 当 微 指令 执行 。 一 一 一 一 
时 ， 每 个 字段 被 译 码 并 生成 控制 信号 。 于 是 ,用 d) KEAN 
个 字段 ，N 个 同时 发 生 的 动作 被 指定 。 每 个 动作 导 
致 一 个 或 多 个 控制 信号 被 激活 。 但 不 总 是 如 此 ， 通 
常 我 们 希望 将 格式 设计 成 每 个 控制 信号 只 被 一 个 字 
段 所 激活 。 然 而 很 清楚 ， 必 须 允 许 每 个 控制 信号 能 
被 至 少 一 个 字段 所 激活 。 

再 考虑 各 个 字段 。 一 个 由 上 位 组 成 的 字段 可 能 
有 :2: 个 不 同 代码 ， 每 个 代码 对 应 着 不 同 的 控制 信号 
样式 。 因 为 每 次 只 能 有 一 个 代码 出 现在 字段 中 , M 人 











代码 是 互 扩 的， 从 而 它们 引起 的 动作 也 是 互 斥 的 。 b) 间接 编码 
设计 一 个 编码 的 微 指令 格式 ， 现 在 可 以 简单 地 
表示 为 ， 图 16-11 微 指令 编码 
。 格式 由 独立 的 字段 组 成 ， 即 每 个 字段 描述 这 样 一 组 动作 (控制 信号 样式 ) ， 能 使 来 自 不 同 


字段 的 动作 同时 实现 。 
。 这 样 定义 每 个 字段 ， 即 可 被 此 字段 指定 的 各 种 动作 是 互 斥 的 。 对 于 一 给 定 字 段 ， 每 次 只 
能 出 现 一 个 所 指定 的 动作 。 
将 编码 微 指令 组 织 成 字段 格式 有 两 种 方法 可 采用 : 功能 和 资源 编码 方法 。 功 能 编码 方法 识 
别 机 器 内 的 功能 ， 并 以 功能 类 型 来 设计 字段 。 例 如 ， 若 几 个 数据 源 都 能 用 来 将 数据 传送 到 累加 
器 ， 那 么 一 个 字段 能 设计 成 用 于 此 目的 ， 用 不 同 代码 来 指定 不 同 的 源 。 资 源 编码 方法 是 把 机 器 看 
成 是 由 一 些 独立 的 资源 组 成 ， 并 为 每 个 资源 分 配 一 个 字段 。 
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编码 的 另 一 个 方面 是 ， 它 是 直接 的 还 是 间接 的 ( 


会 被 用 来 确定 另 一 字段 的 解释 。 例 如 ， 有 一 个 
ALU， 它 能 完成 8 种 不 同 的 算术 操作 和 8 种 不 同 
的 移 位 操作 。 一 个 1 位 字段 能 用 来 指示 将 要 发 
生 的 是 算术 操作 还 是 移 位 操作 ; 一 个 3 位 字段 
用 来 指示 相应 的 8 种 操作 中 的 某 一 个 。 这 种 技 
术 通 常 含有 两 级 译 码 ， 因 此 会 增加 信和 号 的 传播 
延迟 (propagation delay) 。 

图 16-12 是 这 些 概念 的 一 个 简单 例子 。 假 定 
CPU 有 一 个 单一 累加 器 和 几 个 内 部 寄存 器 ， 如 
程序 计数 器 、ALU 输入 暂 存 器 。 图 16-12a 表示 
了 一 种 高 度 垂直 格式 ， 前 3 位 指示 操作 类 型 ， 
接着 3 位 编码 此 具体 操作 ， 最 后 2 位 选择 一 个 内 
部 存储 器 。 图 16-12b 是 一 个 水 平 的 格式 ， 虽 然 
仍 使 用 了 编码 。 这 种 情况 下 ， 不 同 的 功能 出 现 
在 不 同 的 字段 中 。 


16.3.3 LSI-11 微 指令 执行 


LSI-11 [SEBE76] 是 垂直 微 指 令 方法 的 一 
个 很 好 的 例子 。 我 们 先 查看 它 的 控制 器 组 织 
然后 再 查看 微 指令 格式 。 

1. LSI-11 控制 器 组 织 

LSI-11 是 PDP-11 系列 以 单 板 处 理 器 面市 的 
第 一 个 成 员 。 此 板 上 有 三 个 LSI 芯片 ， 一 个 称 为 
微 指 令 总 线 (microinstruction bus, MIB) 的 内 部 
总 线 ， 以 及 某 些 辅助 的 接口 逻辑 。 

图 16-13 以 简化 形式 描述 了 LSI-11 的 CPU 
组 织 。 三 个 芯片 是 数据 、 控 制 和 控制 存储 芯片 。 
数据 芯片 含有 一 个 8 位 ALU, 26 个 8 位 寄存 器 
和 用 于 保存 几 个 条 件 码 的 寄存 器 ， 这 些 寄存 器 
中 的 16 个 寄存 器 用 来 实现 PDP-11 的 8 个 16 位 
通用 寄存 器 。 其 余 包 括 有 一 个 程序 状态 字 、 存 


储 器 地 址 寄存 器 (MAR) 和 存储 器 缓冲 寄存 器 (MBR), 


PDP-11 的 一 


见 图 16-11b) 。 如 果 是 间接 编码 ， 
简单 寄存 器 传送 


MOR 

MDR 

[0,0,00,10] | | MAR- ate 
= 


寄存 器 选择 
Lia 


-FTFB 





— 5 
特殊 定 序 操作 


CSAR- WHAMDR 
(0,1,0]0,0,1] ,| | 


CSAR -常数 〈( 下 一 字 节 中 ) 





i] ae 


ACC+-ACC+ 寄 存 器 
ACC+-ACC -寄存 器 
ACC 寄存 器 
0,1,1]0,1,1| , | 寄存 器 ACC 
0,1,11,00] | | ACC< 寄 存 器 +1 








eyo 
寄存 器 选择 
a) 垂直 微 指 令 格式 
O12 3 45 6 7 8 9 101112131415 161718 


; 


字段 定义 : 

1 .寄存 器 传送 
2. 存 储 器 操作 5. 寄 存 器 选择 
3. 定 序 操作 6. 常 数 


b) 水 平 微 指令 格式 
图 16-12 简单 机 器 可 采用 的 微 指令 格式 


4. ALU 操 作 


因为 ALU 每 次 只 能 处 理 8 位 ， 为 实现 


次 16 位 算术 运算 ， 数据 必须 两 次 通过 ALU， 这 由 微 程序 控制 。 


控制 存储 芯片 或 芯片 组 含有 一 个 22 位 宽 的 控制 存储 器 。 控 制 芯 片 含 有 定 序 和 控制 微 指令 的 
逻辑、 控制 地 址 寄存 器 、 控 制 数 据 寄 存 器 以 及 一 个 机 器 指令 寄存 器 的 副本 。 

MIB 将 所 有 的 这 些 组 件 “ 捆 绑 ” 在 一 起 。 在 微 指令 取 指 周期 时 ， 控 制 芯片 产生 一 个 11 位 地 
址 放 到 MIB 上 。 于 是 ， 控 制 存 储 芯 片 被 访问 ， 送 出 一 个 22 位 微 指 令 到 MIB 上 。 此 指令 的 低 端 18 
位 送 到 控制 芯片 ， 同 时 低 端 16 位 送 到 数据 芯片 。 高 端 4 位 控制 专门 的 CPU 板 功能 。 

图 16-14 显示 了 仍 是 简化 但 更 详细 的 LSI-11 控制 器 组 成 框图 ， 此 图 不 考虑 各 个 芯片 的 边界 。 
16.2 节 介 绍 的 地 址 定 序 逻 辑 在 这 里 由 两 个 模块 实现 。 微 程序 定 序 控制 模块 提供 了 全 面 的 定 序 控制 ， 


它 能 递增 微 指令 地 址 寄存 器 或 完成 无 条 件 转移 。 另 一 模块 是 转换 阵列 ， 


它 能 进行 其 他 形式 的 地 址 计 


算 。 它 是 一 个 组 合 电路 ， 依 据 微 指令 、 机 器 指令 、 微 指令 程序 计数 器 和 中 断 寄 存 器 来 产生 地 址 。 
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控制 数据 寄存 器 





LSI-11 系 统 总 线 
一 一 一 若 线 上 未 标明 数字 ， 则 该 线路 为 若干 信号 的 组 合 


图 16-13 LSI-11 处 理 器 简化 图 





图 16-14 LSI-11 控制 器 组 织 


此 转换 阵列 在 如 下 时 机 起 作用 : 

。 使 用 操作 码 确 定 一 个 微 程序 的 开始 。 

。 在 适当 时 机 ， 微 指令 的 地 址 模式 位 被 测试 ， 以 完成 相应 的 寻 址 。 

。 周期 性 地 测试 中 断 条 件 。 

。 检查 条 件 转移 指令 。 

2. LSI-11 微 指 令 格式 

LSI-11 使 用 了 一 种 非常 垂直 化 的 微 指令 格式 ， 它 只 有 22 位 宽 。 微 指令 集 极其 相似 于 它 所 实 
现 的 PDP-11 机 器 指令 集 。 这 种 设计 目的 在 于 ， 在 选用 了 垂直 式 、 易 编程 设计 的 微 指 令 格式 前 提 
下 ， 优 化 控制 器 的 性 能 。 表 16-5 列 出 了 某 些 LSI-11 GES. 


表 16-5 某 些 LSI-11 微 指 令 














算术 操作 逻辑 操 fF 输入 输出 操作 
加 字 ( 字 节 , 字 符 ) “与 ” 字 ( 字 节 , 字 符 ) 传送 字 输入 字 ( 字 节 ) 
测试 字 ( 字 节 ,字符 ) 测试 字 ( 字 节 ) 转移 输入 状态 字 ( 字 节 ) 
字 ( 字 节 ) 增 1 “a (FA) 返回 读 
字 ( 字 节 ) 增 2 “ 异 或 " 字 ( 字 节 ) 条 件 转移 写 
取 负 字 ( 字 节 ) “位 清除 " 字 ( 字 节 ) 置 位 ( 复位) 标志 读 ( 写 ) 字 ( 字 节 ) 并 增 1 
条 件 递增 ( 递减 减 ) 字 节 带 ( 不 带 ) 进 位 右 ( 左 ) 移 字 ( 字 节 ) RA G 低位 读 ( 写 ) 字 ( 字 节 ) 并 增 2 
条 件 加 字 ( 字 节 ) 字 ( 字 节 ) 取 反 条 件 传 送 字 ( 字 节 ) | 读 ( 写 ) 认 可 
带 进 位 的 字 ( 字 节 ) 加 输出 字 ( 字 节 , 状 态 ) 
条 件 加 数字 
减 字 ( 字 节 ) 
比较 字 ( 字 节 , 字 符 ) 
带 进位 的 字 ( 字 节 ) 减 
字 ( 字 节 ) 减 1 








图 16-15 表示 了 22 位 LSI-11 的 微 指令 格式 。 高 4 位 控制 CPU 板 上 的 专门 功能 。 转 换 位 允许 
转换 阵列 来 检查 未 处 理 的 中 断 。“ 装 人 返回 寄存 器 ”位 用 于 在 微 子 程序 结束 时 ， 由 返回 寄存 器 装 
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和 下 一 微 指令 地 址 。 其 余 16 位 用 于 微 操作 的 高 度 编码 。 微 指令 格式 非常 像 PDP-11 机 器 指令 ， 有 
变 长 操作 码 以 及 一 个 或 多 个 操作 数 。 4 i 4 16 





16.3.4 IBM 3033 微 指令 执行 4 


标准 IBM 3033 控制 存储 器 由 4K 字 组 成 ， 它 的 gg entra 


前 一 半 (0000 ~ O7FF) 含有 的 是 108 位 的 微 指令 ; rr 







而 后 一 半 (0800 ~ OFFF) 用 于 存储 126 位 的 微 指 





转移 地 址 
Ay, 图 16-16 描述 了 这 种 指令 格式 。 虽然 这 是 一 种 aes 
相当 水 平 的 微 指令 格式 ， 但 仍 使 用 了 编码 技术 ， 格 gee 
式 中 的 关键 字段 总 结 在 表 16-6 中 。 转移 地 址 


ALU 对 来 自 4 个 专用 的 、 用 户 不 可 见 的 寄存 器 条 件 转移 微 指令 格式 
A、B、C、D 的 输入 进行 操作 。 微 指令 格式 有 这 样 
的 字段 ， 用 来 将 用 户 可 见 的 寄存 器 的 内 容 装 入 这 些 
用 户 不 可 见 的 寄存 器 ， 完 成 一 个 ALU 运算 ， 并 指定 
一 个 用 户 可 见 的 寄存 器 存储 此 运算 结果 。 微 指令 中 “操作 码 、 |B 入 
亦 有 这 样 的 字段 ， 用 来 在 寄存 器 和 存储 器 之 间 装 载 寄存 器 跳 转 微 指令 格式 


IBM 3033 的 定 序 机 制 已 在 16.2 节 讨 论 。 图 16-15 LSI-11 微 指令 格式 

















一 小 





存储 地 址 移 位 控制 pee 杂项 控制 
108 125 
Plos| pp | pc | w | pe | 
| g | 
r 测试 和 条 件 代码 设 定 | 


图 16-16 IBM 3033 微 指令 格式 
表 16-6 IBM 3033 微 指令 控制 字段 













ALU 控制 字段 
由 一 数据 寄存 器 装 入 A 寄存 器 
AB (3) 由 一 数据 寄存 器 装 和 人 B 寄存 器 
AC (3) 由 一 数据 寄存 器 装 和 人 C 寄存 器 
AD (3) 由 一 数据 寄存 器 装 和 人 D 寄存 器 
AE (4) 传送 指定 的 A 位 到 ALU 

AF (4) 传送 指定 的 B 位 到 ALU 

AG (5) 指定 ALU 对 A 输入 进行 算术 操作 


ALU 控制 字段 
AH (4) 指定 ALU 对 B 输入 进行 算术 操作 
AJ (1) 指定 D 或 B 输 入 到 ALU 的 B 侧 
AK (4) 传送 算术 结果 输出 到 移 位 器 

CA (3) 装 入 下 寄存 器 

CB (1) 启动 移 位 器 

CC (5) 指定 逻辑 和 进位 功能 
指定 移 位 总 量 
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( 续 ) 









排序 和 转移 字段 
设置 控制 地 址 寄存 器 的 高 8 位 BE (4) 
指定 设置 控制 地 址 寄存 器 位 9 的 条 件 | | 
16.4 TI 8800 


德州 仪器 公司 的 8800 软件 开发 板 (software development board, SDB) 是 一 个 可 编程 的 32 位 
计算 机 卡 。 该 系统 有 一 个 以 RAM 而 不 是 ROM 实现 的 可 写 式 控制 存储 器 。 这 样 的 系统 达 不 到 具有 
ROM 控制 存储 器 的 微 程序 系统 的 速度 和 密度 。 然 而 ， 它 对 只 需要 开发 原型 机 和 教学 应 用 是 很 有 
用 的 。 

TI 8800 SDB 的 组 件 包括 : 微 代码 存储 器 、 微 定 序 器 、32 位 ALU、 浮 点 和 整数 处 理 器 、 局 部 
数据 存储 器 。 

两 条 总 线 (DA 和 System Y) 连接 着 系统 内 部 组 件 。DA 总 线 将 微 指令 数据 字段 的 数据 传 到 
ALU、 浮 点 处 理 器 或 微 定 序 器 。 此 总 线 也 可 用 于 ALU 或 者 微 定 序 器 向 其 他 组 件 提供 数据 。System 
Y 总 线 提供 了 ALU 和 浮 点 处 理 器 与 局 部 存储 器 ， 以 及 经 由 PC 接口 与 外 部 模块 的 连接 。 

TI 8800 开发 板 可 以 嵌入 一 个 IBM PC 兼容 的 计算 机 。 主 机 提供 一 个 可 用 的 平台 ， 来 汇编 和 调 
试 微 代 码 。 


16.4.1 微 指 令 格 式 


8800 的 微 指令 有 128 位 ， 分 成 30 个 功能 字段 ， 其 指令 格式 如 表 16-7 所 示 。 这 些 字段 可 分 成 板 
控制 、8847 浮 点 和 整数 处 理 器 芯片 、8832 寄存 器 式 ALU, 8818 微 定 序 器 、WCS 数据 字段 5 种 类 型 。 


表 16-7 TI 8800 微 指令 格式 





排序 和 转移 字段 
指定 设置 控制 地 址 寄存 器 位 10 的 条 件 
指定 设置 控制 地 址 寄存 器 位 11 的 条 件 
指定 设置 控制 地 址 寄存 器 位 12 的 条 件 












































说 明 





选择 条 件 码 输入 

允许 /禁止 外 部 VO 请 求 信号 

允许 /禁止 局 部 数据 存储 器 读 / 写 操作 
装 人 状态 /未 装 人 状态 

确定 驱动 Y 总 线 的 组 件 

确定 驱动 DA 总 线 的 组 件 

C 寄存 器 控制 : 要 时 钟 或 不 要 时 钟 

为 了 总 线 选 择 最 高 位 或 最 低位 

C 寄存 器 数据 源 : ALU、 多 路 器 

A ALU 和 MUL 选择 IEEE sk FAST 模式 
为 数据 操作 数 选择 源 : RA, RB, P, S, C 寄存 器 
RB 寄存 器 控制 : 要 时 钟 或 不 要 时 钟 
RA 寄存 器 控制 : 要 时 钟 或 不 要 时 钟 
数据 源 确认 

允许 /禁止 流水 线 寄存 器 

8847 ALU 功能 



































8847 浮 点 和 整数 
处 理 器 芯片 
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( 续 ) 





wo 













写 允 许 / 禁 止 数 据 输出 到 所 选 寄存 器 : 高 位 一 半 ， 低 位 一 半 
选择 寄存 器 集 数据 源 : DA 总 线 、DB RA, ALU Y MUX 输出 Sys- 





tem Y 总 线 








移 位 指令 修改 符 








进位 输入 : 强制 、 不 强制 












8832 寄存 器 
式 ALU 











配置 ALU 模式 : 32、16 或 8 位 
选择 输入 到 S 多 路 器 : 寄存 器 集 、DB 总 线 、MQ 寄存 器 
选择 输入 到 R 多 路 器 : 寄存 器 集 、DA 总 线 
为 写 选择 文件 C 中 的 寄存 器 
为 写 选择 文件 B 中 的 寄存 器 
为 写 选 择 文件 A 中 的 寄存 器 

















8818 微 定 序 器 






ALU 功能 
控制 输入 信号 到 8818 














WCS 数据 字段 








可 写 控制 存储 器 字段 的 高 位 
可 写 控制 存储 器 字段 的 低位 


如 图 16-17 所 示 ，WCS (可 写 式 控制 存储 器 ) 的 32 位 数据 字段 送 入 DA 总 线 ， 并 将 作为 数据 
送 给 ALU、 浮 点 处 理 器 或 微 定 序 器 。 微 指令 的 其 余 9 位 (字段 1~27) 是 控制 信号 ， 直 接送 至 
相应 的 模块 。 为 简化 ， 其 他 连接 未 在 图 16-17 中 给 出 。 


前 6 个 字段 处 理 有 关 板 控制 
的 操作 ， 而 不 是 控制 个 别 的 组 件 。 
控制 操作 包括 : 

(1) 为 定 序 器 选择 条 件 码 。 
字段 1 的 第 1 位 指示 条 件 标志 
将 被 设 定 为 1 还 是 0， 字 段 1 的 其 
a4 位 用 于 指示 哪 一 个 条 件 标志 
被 设 定 。 

(2) 发 送 一 本 芭 0 请 求 到 
PC/AT, 

(3) 允许 局 部 数据 存储 器 的 
读 / 写 操作 。 

(4) 确定 驱动 System Y 总 线 
的 组 件 ， 接 到 此 总 线 的 4 个 组 件 
中 的 某 个 被 选中 ( 见 图 16-17) 。 

微 指令 的 最 后 32 位 是 数据 字 
段 ， 它 含有 对 应 于 具体 指令 的 信息 。 

对 于 微 指 令 的 其 他 字段 ， 最 
好 在 介绍 它们 控制 的 设备 时 ， 结 
合 上 下 文 一 起 讨论 。 下 面 讨 论 微 
定 序 器 和 寄存 器 式 ALU。 对 于 浮 





下 一 微 代码 地 址 


ACT8818 
WERE 


图 16-17 TI 8800 结构 图 
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点 处 理 器 ， 因 为 它 没 引入 什么 新 概念 ， 故 不 予 讨 论 了 。 


16.4.2 MEFA 

8818 微 定 序 器 的 基本 功能 是 为 微 程序 产生 下 一 个 微 指令 地 址 。 它 的 15 位 地 址 提供 给 微 代码 
存储 器 (microcode memory) ， 如 图 16-17 所 示 。 

微 定 序 器 能 从 如 下 5 个 来 源 选 取 下 一 地 址 : 

(1) 微 程序 计数 器 MPC (microprogram counter) ， 用 于 重复 (重用 相同 地 址 ) 和 后 继 指令 
( 增 1 地 址 ) 。 

(2) 栈 ， 它 支持 微 程 序 的 子 程序 调用 ， 以 及 重复 循环 和 中 断 返 回 。 

(3) DRA 和 DRB 端口 ， 它 提供 了 来 自 外 部 硬件 的 连接 ， 通 过 这 一 连接 可 以 生成 微 程序 地 
址 。 这 两 个 端口 分 别 连 接 到 DA 总 线 的 高 16 位 和 低 16 位 。 这 允许 微 定 序 器 由 当前 微 指令 的 WCS 
数据 字段 或 由 ALU 计算 结果 来 获得 下 一 指令 地 址 。 

(4) 寄存 器 计数 器 (register counter) RCA 和 RCB， 它 们 能 用 于 另外 的 地 址 存储 。 

(5) 一 个 对 双向 立 端 口 的 外 部 输入 ， 以 便 支 持 外 部 中 断 。 

图 16-18 是 8818 的 逻辑 框图 ，8818 由 如 下 主要 功能 组 件 组 成 : 

e 一 个 16 位 微 程序 计数 器 (MPC) ， 它 包括 一 个 计数 器 和 一 个 递增 器 。 
两 个 寄存 器 计数 器 RCA 和 RCB， 用 来 为 循环 和 重复 计数 、 保 存 转移 地 址 或 驱动 外 部 
设备 。 
一 个 65 F x16 位 的 栈 ， 用 于 微 程 序 的 子 程序 调用 和 中 断 。 
一 个 中 断 返 回 寄存 器 (interrupt return register) 和 YY 输出， 以 允许 微 指令 集 的 中 断 处 理 。 
一 个 了 输出 多 路 器 ， 通 过 它 能 由 MPC, RCA 和 RCB ， 外 部 总 线 DRA 和 DRB, 或 栈 来 选 
择 下 一 地 址 。 


DA31-DA16 DA15-DA00 
(DRA) (DRA) 





图 16-18 TI 8818 微 定 序 器 


1. 寄存 器 /计数 器 
寄存 器 RCA 和 RCB 可 由 DA 总 线装 人 ， 或 装载 来 自 当前 微 指令 或 来 自 ALU 的 输出 。 其 值 可 
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用 作 计 数 器 来 控制 执行 流 ， 并 且 当 被 访问 时 能 自动 递减 。 其 值 还 可 用 作 提 供给 Y 输 出 多 路 器 的 
微 指令 地 址 。 除 同时 递减 两 个 寄存 器 外 ， 还 支持 在 单一 微 指 令 周 期 内 两 个 寄存 器 的 独立 控制 。 

2. 栈 

此 栈 允 许 子 程序 调用 或 中 断 的 多 级 艇 套 ， 也 能 用 于 支持 转移 和 循环 。 但 应 清楚 ， 这 些 操作 是 
对 控制 器 而 言 ， 而 不 是 对 整个 处 理 器 。 这 些 被 涉及 的 地 址 是 控制 存储 器 中 的 微 指令 地 址 。 

6 种 栈 操 作 是 允许 的 : 

(1) 清除 (clear) ， 它 置 栈 指针 为 零 ， 清 空 栈 。 

(2) 弹出 (pop) ， 它 递减 栈 指 针 。 

(3) FRA (push) ， 它 将 MPC、 中 断 返 回 寄 存 器 或 DRA 总 线 的 内 容 放 到 栈 上 ， 并 递增 栈 指 针 。 

(4) 读 (read) ， 它 使 被 读 指针 指示 的 地 址 在 Y 输 出 多 路 器 上 可 用 。 

(5) 保持 (hold) ， 它 使 栈 指针 的 地 址 保持 不 变 。 

(6) 装 和 人 栈 指针 (load stack pointer), Ef DRA 的 低 7 位 装 人 到 栈 指针 。 

3. 微 程序 控制 

从 根本 上 讲 ， 微 定 序 器 是 被 当前 微 指 令 字 段 28 的 12 位 所 控制 ( 见 表 16-7) 。 这 个 字段 分 成 
如 下 子 字段 。 

e OSEL (1 位 ) : 输出 选择 。 它 确定 哪个 值 放 到 连接 DRA 总 线 的 多 路 器 (MUX) 输出 上 
( 见 图 16-18 的 左上 角 ) ， 选 择 的 值 来 自 栈 或 寄存 器 RCA。DRA 则 作为 了 输出 多 路 器 或 寄 
存 器 RCA 的 输入 。 
SELDR (1 位 ); 选择 DR 总 线 。 若 此 位 为 1， 则 选择 外 部 DA 总 线 作为 DRA/DRB 总 线 的 
输入 。 若 此 位 为 0， 则 选择 DRA 多 路 器 的 输出 到 DRA 总 线 (再 由 0SEL 控制 输出 选择 ) 
和 RCB 的 内 容 到 DRB 总 线 。 
ZEROIN (1 位 ) : 用 于 指示 一 个 条 件 转移 。 微 定 序 器 的 行为 ， 将 取决 于 字段 1 所 选 的 条 
件 码 (WLR 16-7) 。 
RC2 ~ RCO (3 fit): 寄存 器 控制 。 这 些 位 确定 寄存 器 RCA 和 RCB 中 内 容 的 改变 。 每 个 
寄存 器 都 可 以 保持 不 变 、 递 减 或 由 DRA/DRB 总 线装 人 。 
S2 ~S0 (3 位 ) : 栈 控 制 。 这 些 位 确定 什么 样 的 栈 操 作 将 要 被 完成 。 
MUX2 ~ MUX0: 输出 控制 。 这 些 位 与 条 件 码 一 起 控制 了 输出 多 路 器 ， 从 而 也 控制 了 下 一 
微 指令 地 址 。 该 多 路 器 能 从 栈 、DRA 、DRB 或 MPC 来 选择 输入 作为 它 的 输出 。 

这 些 位 可 被 程序 员 分 别 设置 ， 但 一 般 不 这 样 做 。 程 序 员 一 般 使 用 等 价 于 所 要 求 位 样式 的 助 
记 符 。 表 16-8 列 出 用 于 字段 28 的 15 个 助 记 符 。 一 个 微 代 码 的 汇编 器 将 这 些 助 记 符 转换 为 相应 
的 位 样式 。 


表 16-8 118818 微 定 序 器 的 微 指 令 位 (字段 28) 











助 记 符 值 说 明 
RST8818 000000000110 复位 指令 
BRA88181 011000111000 转移 到 DRA 指令 
BRA88180 010000111110 转移 到 DRA 指令 
INC88181 000000111110 继续 执行 指令 
INC88180 001000001000 继续 执行 指令 
CAL88181 010000110000 转移 到 DRA 指定 地 址 处 执行 子 程序 
CAL88180 010000101110 转移 到 DRA 指定 地 址 处 执行 子 程序 
RET8818 000000011010 由 子 程序 返回 
PUSH8818 000000110111 将 中 断 返 回 地 址 压 人 栈 
POP8818 100000010000 由 中 断 返回 
LOADDRA 000010111110 由 DA 总 线装 入 DRA 计数 器 
LOADDRB 000110111110 由 DA 总 线装 人 DRB 计数 器 
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( 续 ) 










助 记 符 
LOADDRAB 
DECRDRA 

DECRDRB 


值 
000110111100 
010001111100 
010101111100 


说 明 











装 人 DRA/DRB 
递减 DRA 计数 器 并 且 不 为 零 则 转移 
递减 DRB 计数 器 并 且 不 为 零 则 转移 








作为 一 个 例子 ， 若 当前 所 选 的 条 件 码 是 1， 助 记 符 INC 88181 将 使 顺序 的 下 一 微 指令 被 选中 。 

由 表 16-8 可 知 : 
INC88181 =000000111110 

直接 译 码 成 : 

e OSEL=0 选择 RCA 作为 DRA 的 输出 送 到 MUX; 对 本 示例 助 记 符 ， 该 选择 是 不 相干 的 。 

e SELDR=0 正如 上 面 所 定义 的 ; 同样 ， 该 助 记 符 与 此 选择 不 相干 。 

e ZEROIN =0 与 MUX 值 相 结合 ， 指 示 无 转移 发 生 。 

e R=000 保留 RA 和 RC 的 当前 值 。 

e S=111 保留 当前 栈 的 状态 。 

e MUX =110“ 当 条 件 码 为 1 时 选取 MPC， 当 条 件 码 为 0 时 选取 DRA, 


16.4.3 ”寄存 器 式 ALU 


8832 是 一 个 32 位 的 ALU， 它 带 有 64 个 寄存 器 ， 这 些 寄 存 器 能 配置 成 4 个 8 位 ALU、2 个 16 
位 ALU 或 一 个 32 位 ALU 来 操作 。 

微 指令 的 字段 17 ~ 27 的 39 位 控制 着 8832 (参见 表 16-7)， 这些 位 作为 控制 信号 提供 给 
ALU, Sb, 8832 还 有 外 部 连接 到 32 位 DA 总 线 和 32 位 系统 Y 总 线 ， 见 图 16-17。 来 自 DA BR 
的 输入 能 作为 输入 数据 同时 提供 给 64 字 的 寄存 器 组 和 ALU 逻辑 模块 。ALU 和 移 位 操作 的 结果 能 
输出 到 DA 总 线 或 系统 Y 总 线 。 结 果 亦 能 反馈 给 其 内 部 寄存 器 组 。 

三 个 6 位 地 址 端口 允许 在 寄存 器 组 内 部 同时 完成 读 取 两 个 操作 数 和 写 入 一 个 操作 数 。MQ 移 
位 器 和 MQ 寄存 器 亦 能 配置 成 独立 实现 双 精 度 的 8 位 、16 位 和 32 位 的 移 位 操作 。 

每 条 微 指 令 的 字段 17 ~ 26 控制 8832 内 部 以 及 8832 与 外 部 环境 之 间 的 数据 流 。 这 些 字段 是 : 

e 17 写 使 能 (write enable) 。 这 两 位 指定 写 32 位 ， 写 高 16 位 ， 或 不 写 到 寄存 器 组 。 目 

标 寄 存 器 由 字段 24 定义 。 
e 18 选择 寄存 器 组 数据 源 (select register file data source ) 。 若 出 现 对 寄存 器 组 的 写 操 
作 ， 这 两 位 指定 源 为 : DA 总 线 、DB 总 线 、ALU 输出 或 系统 Y 总 线 。 

© 19 一 一 移 位 指令 修改 符 (shift instruction modifier) 。 指 定 在 移 位 指令 期 间 有 关 提 供 终端 填 

入 位 和 读 取 移 出 位 的 选项 。 

20 一 一 进位 输入 (carry in) 。 这 个 位 指定 是 否 为 当前 操作 将 一 位 进位 输入 到 ALU, 

e 21——ALU 配置 模式 (ALU configuration mode) 。8832 能 配置 成 以 单一 32 位 ALU、2 个 16 
位 ALU 或 4 个 8 位 ALU 来 计算 。 

22 一 一 S 输 入 (S input)。 有 两 个 称 为 S 和 R 的 多 路 器 向 ALU 逻辑 模块 提供 输入 。 这 个 字 
段 选择 由 S 多 路 器 提供 的 输入 为 : 寄存 器 组 、DB 总 线 或 MQ 寄存 器 。 寄 存 器 组 中 的 源 由 
字段 25 定义 。 

23 一 一 R 输入 (R input) 。 选 择 由 R 多 路 器 提供 的 输入 为 : 寄存 器 组 或 DA 总 线 。 

24 一 一 目标 寄存 器 (destination register) 。 指 定 被 目标 操作 数 使 用 的 寄存 器 组 中 寄存 器 的 地 址 。 
25 一 一 源 寄存 器 (source register) 。 指 定 被 源 操 作 数 使 用 的 寄存 器 组 中 的 寄存 器 地 址 ， 由 
S 多 路 器 送出 。 

26 一 一 源 寄 存 器 。 指 定 被 源 操 作 数 使 用 的 寄存 器 组 中 的 寄存 器 地 址 ， 由 R 多 路 器 送出 。 
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最 后 ， 字 段 27 是 一 个 8 位 操作 码 用 来 指定 将 被 ALU 完成 的 算术 或 逻辑 运算 。 表 16-9 列 出 了 
它 能 完成 的 运算 。 
表 16-9 TI 8832 寄存 器 式 ALU 指令 字段 (字段 27) 


























组 | 指 令 功 能 | 组 | a 4 功 能 
ADD H#01 R+S+Cn ADDI H#68 | 加 立即 数 
SUBR H#02 | (NOT R) +S+Cn SUBI H#78 | 减 立即 数 
SUBS H#03 | R=(NOTS)+Cn BADD H#88 | AHR BS 
INSC H#04 | S+Cn = BSUBS H#98 | ZPR, RIS 
INCNS H#05 (NOT S) +Cn BSUBR H#A8 | PHI, SÈR 


INCR H#06 R + Cn BINCS H#B8 字 节 递增 S 


1 | INCNR H#07 (NOT R) + Cn BINCNS H#C8 字 节 递增 负 S 
XOR H#09 R XOR S BXOR H#D8 字 节 R XOR S 






















































AND H#0A R AND S BAND H#E8 字 节 R AND S 

OR H#0B RORS 字 节 R ORS 

NAND H#0C | RNANDS CRC H#00 [aR ee 
R NOR S SEL H#10 选择 S 或 R 





(NOT R) AND S 
SRA H#00 算术 右 移 单 精 度 
SRAD H#10 算术 右 移 双 精 度 


SRL H#20 逻辑 右 移 单 精度 


SNORM H#20 | 单 长 度 规格 化 

DNORM H#30 | 双 长 度 规格 化 

DIVRF H#40 | 除法 ,余数 定位 
SDIVQF HHO | 有 符号 除法 ， 余数 定位 
































SRLD H#30 | 逻辑 右 移 双 精度 SMULI HH#K60 | 有 符号 乘法 重复 
SLA H#40 | 算术 左 移 单 精度 4 | SMULT H#70 | 有 符号 乘法 结束 
SLAD H#50 | 算术 左 移 双 精度 SDIVIN H#80 | 有 符号 除法 初始 化 








SLC H#60 | 循环 左 移 单 精度 
SLCD H#70 | 循环 左 移 双 精 度 
SRC H#80 | 循环 右 移 单 精度 
循环 右 移 双 精 度 


SDIVIS H#90 | 有 符号 除法 开始 
SDIVI H#A0 | 有 符号 除法 重复 
UDIVIS H#B0 | 无 符号 除法 开始 
UDIVI H#C0 | 无 符号 除法 重复 





























































































算术 右 移 MQ 寄存 器 UMULI H#D0 | 无 符号 乘法 重复 
MQSRL H#B0 | HAE MQ 寄存 器 有 符号 除法 结束 
MQSLL H#CO | HAR MQ 寄存 器 UDIVIT H#F0 | 无 符号 除法 结束 
MQSLC H#D0 LOADFF H#OF | 装 和 人 除法 /BCD 型 触发 器 
AEA MQ 寄存 器 CLR HALF | 清除 
PASS H#FO | 通过 ALU 到 Y( 无 移 位 操作 ) DUMPFF H#SF | 输出 除法 /BCD 型 触发 器 
SETI H#08 置 位 位 1 BCDBIN H#7F | BCD 到 二 进 制 
SETO H#18 | 置 位 位 0 EX3BC HBF | 超 3 字 节 修正 
TB1 H#28 | 测试 位 1 EX3C HH9F | 超 3 字 修正 
TBO H#38 | 测试 位 0 SDIVO H#AF | 有 符号 溢出 测试 
ABS H#48 绝对 值 BINEX3 H#DF | 二 进 制 转换 到 超 3 
SMTC H#58 有 符号 值 除 以 2 的 补 码 NOP32 H#FF | 空 操 作 
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作为 说 明 字段 的 17 ~27 使 用 的 例子 ， 让 我 们 考虑 这 样 一 条 指令 : 它 将 寄存 器 1 的 内 容 加 到 
寄存 器 2， 并 将 结果 放 到 寄存 器 3。 此 助 记 符 指令 是 : 

CONTI1 [17], WELH, SELRYFYMX, [24], R3, R2, R1, PASS + ADD 

然后 由 汇编 器 转换 成 相应 的 位 样式 。 此 助 记 符 指令 的 各 部 分 描述 如 下 : 

© CONT11 是 一 个 基本 的 NOP 指令 

。 字段 17 被 修改 为 WELH 〈 写 使 能 ， 低 和 高 ) ， 一 个 32 寄存 器 被 写 人 。 

。 字段 18 被 修改 为 SELRFYMX， 选 择 由 ALU Y 多 路 器 输出 的 反馈 。 

。 字段 24 被 修改 为 指定 寄存 器 R3 用 作 目 标 寄存 器 。 

。 字段 25 被 修改 为 指定 寄存 器 R2 用 作 源 寄存 器 之 一 。 

。 字段 26 被 修改 为 指定 寄存 器 R1 用 作 源 寄存 器 之 一 。 

。 字段 27 被 修改 为 指定 一 个 ADD 的 ALU 操作 。ALU 的 移 位 指令 是 PASS， 于 是 ，ALU 的 输 

出 不 被 移 位 器 移动 。 
有 关 助 记 符 表示 法 有 几 点 要 说 明 一 下 。 对 于 连续 的 字段 没 必要 指出 字段 号 。 即 
CONTI1 [17], WELH, [18], SELRFYMX 


可 写成 : 
CONTI1 [17], WELH, SELRFYMX 
因为 字段 17 之 后 是 字段 18。 


表 16-9 中 组 1 的 ALU 指令 必须 总 是 与 组 2 相 结 合 使 用 。 组 3 ~5 的 ALU 指令 不 能 与 组 2 一 起 
使 用 。 


16.5 ”推荐 的 读物 
有 几 本 书 专门 论述 了 微 程 序 设 计 ， 或 许 最 全 面 的 应 该 是 [LYN93 ] 。[ SEGE91] 给 出 了 微 代 码 设 计 的 基 

础 ， 并 以 逐步 设计 一 个 简单 的 16 位 微 处 理 器 的 方式 来 说 明 微 代 码 系统 的 设计 。[ CART9%6] 也 使 用 了 一 个 范 

例 机 器 来 说 明基 本 概念 。[PARK89] 和 [TI90] 提供 了 对 TI 8800 软件 开发 板 的 详细 描述 。 
[VASS03] 讨论 了 计算 机 设计 中 的 微 代码 应 用 的 演变 和 它 的 当前 状况 。 

CART% Carter, J. Microprocesser Architecture and Sapte) Upper Saddle 
River, NJ: Prentice Hall, 1996. _ 

LYNC93 Lynch, M. Microprogrammed State Machine Drin Boca Raton, FL: CRC 
Press, 1993. 

PARK89 Parker, A., and Hamblen, J. An Introduction to icine with Exer- 
cises Designed for the Texas Instruments SN74ACT8800 Software Development 
Board. Dallas, TX: Texas Instruments, 1989. 

SEGE91 Segee, B., and Field, J. cerns ane d Computer aieu, New 
York: Wiley, 1991. o o 

TI90 Texas Instruments Inc. SN744 

VASS03 Vassiliadis, Si Wong, S; an 

and Directions.” IEEE Micro, July-August 2003. 















16.6 关键 词 、 思 考题 和 习题 


关键 词 

control memory: 控制 存储 器 microinstruction encoding: 微 指 令 编 码 

control word: 控制 字 microinstruction execution: 微 指令 执行 

firmware: 固件 microinstruction sequencing: 微 指令 定 序 
hard microprogramming: 硬 微 程序 设计 microinstruction ， 微 指令 


horizontal microinstruction ， 水 平 微 指令 microprogram: 微 程 序 
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microprogrammed control unit: 微 程序 控制 器 unpacked microinstruction; 非 压 缩微 指令 
microprogramming language: 微 程 序 设计 语言 vertical microinstruction; 垂直 微 指令 
soft microprogramming: 软 微 程序 设计 


思考 题 


16.1 
16.2 
16.3 
16.4 
16.5 
16.6 
16.7 
16.8 
16.9 


控制 器 的 硬 布线 实现 方式 与 微 程序 实现 方式 有 何不 同 ? 
如 何 解释 水 平 微 指 令 ? 

控制 存储 器 有 何 作用 ? 

水 平 微 指令 执行 的 典型 顺序 是 什么 ? 

水 平 微 指令 与 垂直 微 指令 有 何不 同 ? 

微 程序 控制 器 完成 的 基本 任务 是 什么 ? 

压缩 与 非 压缩 的 微 指 令 有 何不 同 ? 

硬 微 程序 设计 和 软 微 程序 设计 有 何不 同 ? 

功能 编码 和 资源 编码 有 何不 同 ? 


16.10 列 出 微 程序 设计 的 一 些 普遍 应 用 。 


习题 


16.1 
16.2 


16.3 


16.4 


16.5 


16.6 


16.7 
16.8 


描述 Wilkes 原 机 型 中 乘法 指令 的 执行 过 程 并 画 出 流程 图 。 
假设 一 微 指令 集 有 这 样 一 条 微 指令 ， 以 符号 形式 表示 其 功能 为 : 

IF( AC, =1) THEN CAR-( C,_,) ELSE CAR«(CAR) +1 
其 中 ，AC。 是 累加 器 的 符号 位 ，Co.6 是 微 指令 的 前 7 位 。 使 用 这 种 微 指令 ， 写 一 个 实现 “寄存 器 为 负 
转移 ”(BRM) 机 器 指令 的 微 程 序 ， 该 微 程序 检查 AC 寄存 器 中 的 内 容 ， 若 是 AC 为 负 则 转移 。 假 定 
微 指令 的 C, ~C, 指定 一 组 并 行 的 微 操作 ， 用 符号 形式 表示 此 微 程序 。 
一 个 简单 CPU 其 指令 周期 有 4 个 主要 阶段 : 取 指 、 间 接 、 执 行 和 中 断 。 硬 布线 实现 方式 时 ， 有 两 个 1 
位 标志 用 来 指示 当前 的 状态 。 
(a) 为 何 需 要 这 些 标 志 ? 
(b) 为 什么 微 程 序 控制 器 不 需要 这 些 标志 ? 
考虑 图 16-7 的 控制 器 ， 假 定 它 的 控制 存储 器 是 24 位 宽 。 微 指令 格式 的 控制 部 分 分 成 两 个 字段 。 一 个 
13 位 的 微 操作 字段 用 来 指定 将 要 完成 的 微 操 作 ， 一 个 地 址 选择 字段 用 来 指明 能 引起 微 指令 转移 的 条 
件 ， 这 些 条 件 是 基于 8 个 标志 来 建立 的 。 
(a) 地 址 选择 字段 有 多 少 位 ? 
(b) 地 址 字段 有 多 少 位 ? 
(c) 存储 控制 器 的 容量 有 多 大 ? 
在 上 一 问题 的 环境 下 ， 无 条 件 转移 指令 应 如 何 完 成 ? 如 何 避 免 转移 ， 即 描述 一 条 不 指定 任何 (有 条 件 
和 无 条 件 的 ) 转移 的 微 指令 。 
我 们 希望 为 每 个 机 器 指令 例 程 能 提供 8 个 控制 字 。 机 器 指令 的 操作 码 有 8 位 ， 控 制 存储 器 有 1024 F, 
请 推荐 一 种 由 指令 寄存 器 到 地 址 寄存 器 的 映射 方式 。 
使 用 一 种 编码 式微 指令 格式 ， 说 明 如 何 划分 9 位 的 微 操作 字段 来 指定 46 种 不 同 动作 。 
CPU 有 16 个 寄存 器 ,一 个 ALU 有 16 种 逻辑 功能 和 16 种 算术 功能 ， 一 个 移 位 器 有 8 种 操作 ， 所 有 这 
些 操作 都 与 一 个 CPU 内 部 总 线 相连 。 设 计 一 个 微 指 令 格式 能 指定 此 CPU 的 各 种 微 操作 。 





第 五 部 分 并 行 组 织 





本 书 的 最 后 部 分 考察 并 行 组 织 这 个 日 益 重 要 的 领域 ; 在 并 行 组 织 中 ， 多 个 处 理 单元 相互 协 
作 来 执行 程序 。 超 标量 处 理 器 在 指令 级 发 握 并 行 执 行 的 机 会 ， 而 并 行 处 理 组 织 寻 找 更 高 级 别 的 
并 行 性 ， 使 得 任务 能 并 行 完 成 ,而且 是 多 个 处 理 器 协作 完成 。 这 种 组 织 方式 提出 了 几 个 问题 。 例 
如 ， 如 果 多 个 处 理 器 每 个 都 有 自己 的 高 速 缓存 (cache)， 它 们 共享 对 同一 存储 器 的 存 取 ， 那 么 ， 
就 必须 采用 某 种 硬件 或 软件 机 制 ， 以 保证 这 些 处 理 器 共享 有 效 的 主 存 映像 。 这 就 是 所 谓 的 cache 
一 致 性 问题 。 第 五 部 分 将 讨论 并 行 组 织 设计 考虑 及 其 他 问题 。 

第 17 章 并 行 处 理 

第 17 章 先是 对 并 行 处 理 设计 进行 了 综述 ， 然 后 考察 组 织 多 处 理 器 的 三 种 方法 : 对 称 多 处 理 
器 (SMP) 、 集 群 系统 和 非 均 匀 存 储 器 访问 (NUMA) 机 器 。SMP 和 集群 系统 是 两 种 最 普遍 采用 
的 ， 组 织 多 个 处 理 器 来 改善 性 能 和 可 用 性 的 方式 。NUMA 系统 是 近来 才 提 出 的 概念 ， 还 未 实现 广 
泛 的 商业 成 功 ， 但 表现 出 强劲 的 发 展 态势 。 最 后 ， 考 察 称 为 向 量 处 理 器 的 专门 组 织 。 

第 18 章 多 核 计算 机 

多 核 计 算 机 是 包含 超过 一 个 以 上 处 理 器 〈 核 ) 的 计算 机 芯片 。 多 核 芯片 使 得 计算 能 力 相对 
单个 处 理 器 而 言 将 有 显著 提升 ， 从 而 使 程序 能 运行 得 更 快 。 第 18 章 介 绍 了 多 核 计 算 机 设计 的 一 
些 基 本 问题 ， 并 讨论 了 来 自 Intel x86 和 ARM 体系 结构 的 多 核 处 理 器 实例 。 
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。 提高 系统 性 能 的 传统 方式 是 使 用 多 个 处 理 器 ， 它 们 能 并 行 执行 ， 以 支持 给 定 的 工作 负载 。 
两 种 最 普遍 的 多 处 理 器 组 织 方式 是 对 称 多 处 理 器 (symmetric multiprocessor, SMP) 和 集 
群 系统 (cluster)。 最 近 ， 非 均匀 存储 器 访问 (nonuniform memory access, NUMA) 系统 已 
有 产品 推出 。 

SMP 由 多 个 相同 或 相 类 似 的 处 理 器 组 成 ， 以 总 线 或 某 种 开关 阵列 互 连 成 一 台 计 算 机 。 
SMP 所 需 解 决 的 最 重要 问题 是 cache 一 致 性 。 每 个 处 理 器 都 有 自己 的 cache， 于 是 某 一 行 
数据 可 能 出 现在 不 止 一 个 cache 中 ， 如 果 该 行 在 一 个 cache 中 被 修改 ， 则 主 存 和 其 他 
cache 保存 的 将 是 此 行 的 无 效 版 本 。cache 一 致 性 协议 设计 用 来 解决 这 个 问题 。 

当 不 止 一 个 处 理 器 实现 在 单个 芯片 上 时 ， 这 种 配置 就 称 为 片上 多 处 理 (chip multiprocess- 
ing) 。 一 种 相关 的 设计 策略 是 复制 单个 处 理 器 的 某 些 部 件 ， 使 处 理 器 能 并 发 地 执行 多 个 
线程 ， 这 称 为 多 线程 处 理 器 (multithreaded processor) 。 

集群 系统 由 一 组 “完整 的 计算 机 ” 互 连 而 成 ， 作 为 统一 的 计算 资源 一 起 工作 ， 并 能 产生 
整个 集群 是 作为 一 台 机 器 在 工作 的 印象 。 术 语 “完整 的 计算 机 ”意味 着 其 中 单个 计算 机 
可 脱离 集群 系统 而 独立 完成 自己 的 工作 。 

NUMA 系统 是 一 种 共享 存储 器 的 多 处 理 器 ， 系 统 中 某 个 处 理 器 对 存储 器 字 的 访问 时 间 是 
随 存储 器 字 所 在 位 置 的 不 同 而 不 同 的 。 

e 另 一 类 并 行 组 织 是 向 量 机 制 ， 专 用 于 处 理 向 量 和 数据 阵列 。 

传统 上 ,计算 机 被 看 成 是 一 个 顺序 机 器 。 大 多 数 计算 机 程序 设计 语言 要 求 程序 员 指 定 作 为 
指令 顺序 的 算法 。 处 理 器 执行 程序 是 顺序 地 并 且 每 次 一 条 地 执行 机 器 指令 。 每 条 指令 又 是 顺序 
地 执行 一 系列 操作 〈 取 指令 、 取 操作 数 、 完 成 运算 、 保 存 结果 ) 。 

这 个 计算 机 的 顺序 观点 已 不 完全 是 真 的 了 。 在 微 操 作 级 ， 多 个 控制 信号 是 同时 产生 的 。 指 令 
流水 线 中 至 少 也 要 将 取 指 和 执行 操作 相 重生， 这 已 不 是 新 鲜 事 了 。 这 两 个 例子 都 说 明了 功能 的 
并 行 执行 。 这 种 方法 进一步 扩展 到 超标 量 组 织 ， 它 发 据 了 指令 级 并 行 性 ， 单 个 处 理 器 内 有 多 个 执 
行 单元 ， 可 并 行 执行 同一 程序 的 多 条 指令 。 

随 着 计算 机 技术 的 发 展 和 硬件 成 本 的 下 降 ， 计 算 机 设计 人 员 开 始 寻求 越 来 越 多 的 实现 并 行 
的 机 会 ， 通 常用 于 提高 性 能 ， 某 些 情况 下 用 于 改善 可 用 性 。 在 进行 概述 之 后 ， 本 章 将 考察 并 行 组 
织 的 几 个 最 著名 的 方法 。 首 先 考察 对 称 多 处 理 器 (SMP) ， 这 是 最 早 采用 ， 并 且 至 今 仍 广泛 使 用 
的 并 行 组 织 方法 。 在 SMP 组 织 中 ， 多 个 处 理 器 共享 一 个 公共 的 存储 器 ， 由 此 带 来 了 cache 一 致 性 
问题 ， 我 们 将 用 一 节 的 篇 幅 专 门 讨论 此 问题 。 然 后 介绍 集群 系统 ， 它 是 多 个 独立 的 计算 机 以 一 种 
协作 风格 组 织 而 成 。 接 着 ， 本 章 考 察 多 线程 处 理 器 和 片上 多 处 理 器 。 

对 于 工作 负载 超出 单个 SMP 能 力 的 情况 ， 采 用 集群 系统 方法 变 得 日 益 普遍 。 使 用 多 个 处 理 
器 的 另 一 种 方法 是 非 均匀 存储 器 访问 (NUMA) 式 机 器 ， 这 是 一 种 比较 新 的 方法 ， 有 待 市 场 的 进 
一 步 验证 ， 但 它 经 常 被 看 作 是 SMP 或 集群 系统 的 替代 方式 。 本 章 最 后 考察 向 量 计 算 的 硬件 组 织 
方法 。 这 些 方法 为 处 理 向 量 或 浮 点 数 和 矩阵 而 优化 ALU， 它 们 常用 在 称 为 超级 计算 机 (supercom- 
puter) 的 系统 实现 中 。 
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17.1 多 处 理 器 组 织 


17.1.1 并 行 处 理 器 系统 的 类 型 

最 初 由 Flynn 提出 的 一 种 分 类 法 [FLYN72] 至 今 仍 是 最 普遍 使 用 的 ， 是 对 具有 并 行 处 理 能 
力 的 系统 进行 分 类 的 方法 。Flynn 提出 下 列 计算 机 系统 类 型 : 

。 单 指令 单数 据 (SISD) 流 : 单一 处 理 器 执行 单一 指令 流 来 操作 保存 于 单一 存储 器 上 的 数 

据 。 单 处 理 器 系统 属于 这 一 类 。 

。 单 指令 多 数据 (SIMD) 流 : 一 条 机 器 指令 控制 几 个 处 理 部 件 基于 锁 步 方式 同时 执行 ， 每 
个 处 理 部 件 有 一 个 相关 的 数据 存储 器 ， 故 每 条 指令 在 不 同 的 数据 组 上 执行 。17.7 节 讨 论 
的 向 量 和 阵列 处 理 器 属于 这 一 类 。 

多 指令 单数 据 (MISD) 流 : 一 系列 数据 被 发 送 到 一 组 处 理 器 ， 每 个 处 理 器 执行 不 同 的 指 
令 序 列 。 这 种 结构 从 来 没有 在 商业 上 被 实现 过 。 

多 指令 多 数据 (MIMD) 流 : 一 组 处 理 器 同时 执行 不 同 的 指令 序列 ， 对 不 同 的 数据 集 进 
行 操作 。SMP、 集 群 系统 和 NUMA 系统 都 属于 这 一 类 。 

对 于 MIMD 组 织 ， 处 理 器 是 通用 的 。 每 个 处 理 器 都 能 处 理 所 有 完成 相应 数据 变换 的 必要 指 
令 。MIMD 能 以 处 理 器 的 通信 方式 来 进一步 划分 〈 见 图 17-1) 。 如 果 处 理 器 共享 一 个 公共 的 存储 
器 ， 则 每 个 处 理 器 存 取 共 享 存 储 器 中 的 程序 和 数据 ， 并 经 由 此 存储 器 相互 通信 。 这 种 系统 的 最 普 
通 形 式 是 对 称 多 处 理 器 (symmetric multiprocessor, SMP), RIKE 17.2 节 考 察 它 。 在 SMP 中 ， 
通过 共享 总 线 或 其 他 互 连 结 构 ， 多 个 处 理 器 共享 单一 存储 器 或 存储 器 池 ; 一 个 明显 特征 是 ， 存 储 
器 任何 区 域 的 存 取 时 间 ， 对 各 个 处 理 器 大 致 是 相同 的 。 当 前 的 一 种 新 的 实现 方法 是 非 均 匀 存 储 
器 访问 (non-uniform memory access, NUMA) 组 织 ， 我 们 将 在 17.5 节 介 绍 它 。 顾 名 思 义 ， 存 储 器 
中 不 同 区 域 的 存 取 时 间 ， 对 一 个 NUMA 的 处 理 器 是 不 同 的 。 

一 组 独立 的 单 处 理 器 或 SMP， 可 互 连 成 集群 系统 (cluster) ,计算 机 之 间 的 通信 或 是 经 由 固 
定 的 路 径 ， 或 是 经 由 某 些 网 络 设施 。 
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图 17-1 并 行 处 理 器 体系 结构 分 类 
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17.1.2 ”并 行 组 织 

图 17-2 说 明了 图 17-1 分 类 的 通常 组 织 。 图 17-2a 表示 一 个 SISD 的 结构 。 这 里 有 某 种 控制 单 
元 (Control Unit, CU) 向 处 理 单元 (Processing Unit, PU) 提供 一 个 指令 流 (Instruction Stream, 
IS) ， 该 处 理 单元 对 来 自 一 存储 单元 (Memory Unit, MU) 的 单一 数据 流 (Data Stream, DS) 进 
行 操作 。 对 SIMD 而 言 ， 还 是 一 个 单一 控制 单元 ， 不 过 现在 是 向 多 个 处 理 部 件 提供 单一 指令 流 ， 
每 个 处 理 部 件 可 有 自己 的 专用 存储 器 ( 见 图 17-2b) 或 者 有 一 个 共享 的 存储 器 。 最 后 是 MIMD, 
它 有 多 个 控制 单元 。 每 个 向 自己 的 处 理 部 件 提供 一 个 独立 的 指令 流 。MIMD 可 以 是 共享 存储 器 的 
多 处 理 器 (ILEI 17-20), 或 是 一 个 分 布 式 存储 器 的 多 计算 机 (multicomputer) ( 见 图 17-2d)。 


PS fi 





a) SISD 








c) MIMD (共享 存储 器 ) 
CU = 控制 单元 SISD = 单 指令 
IS = 指令 流 = 单数 据 流 
PU = 处 理 单 元 SIMD = 单 指令 
DS- 数据 流 MIMD rg 
ane rane d) MIMD (分 布 式 存储 器 ) 


图 17-2 可 选 的 计算 机 组 织 


SMP、 集 群 系统 和 NUMA 机 器 的 设计 是 一 个 涉及 物理 组 织 、 互 连结 构 、 处 理 器 间 通 信 、 操 作 
系统 设计 和 应 用 软件 技术 的 复杂 问题 。 这 里 ， 我 们 关注 的 主要 是 组 织 ， 不 过 也 将 简要 介绍 操作 系 
统 设 计 问 题 。 


17.2 ”对称 多 处 理 器 

直到 前 不 入， 所 有 的 单 用 户 个 人 计算 机 和 大 多 数 工 作 站 还 只 含有 单一 通用 微 处 理 器 。 对 性 
能 需求 的 增长 和 微 处 理 器 价格 的 持续 下 跌 ， 促 使 厂商 推出 了 SMP ASE. SMP 既 指 计算 机 硬件 体 
系 结构 ， 也 指 反映 此 体系 结构 的 操作 系统 行为 ， 可 把 SMP 定义 为 具有 如 下 特征 的 独立 计算 机 
系统 : 

(1) 有 两 个 或 更 多 功能 相似 的 处 理 器 。 

(2) 这 些 处 理 器 共享 同一 主 存 和 LO 设备 ， 以 总 线 或 其 他 内 部 连接 机 制 互 连 在 一 起 ; 这 样 ， 
存储 器 的 存 取 时 间 对 每 个 处 理 器 大 致 都 是 相同 的 。 

(3) 所 有 处 理 器 共享 对 VO 设备 的 访问 ,或 通过 同一 通道 ,或 通过 提供 到 同一 设备 路 径 的 
不 同 通道 。 

(4) 所 有 处 理 器 能 完成 同样 的 功能 ( 术语“ 对称” 的 由 来 )。 

(5) 系统 被 一 个 集中 式 操 作 系统 (OS) Eil, OS 提供 各 处 理 器 及 其 程序 之 间 的 作业 级 、 任 
务 级 、 文 件 级 和 数据 元 素 级 的 交互 。 
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第 (1) 点 到 第 (4) 点 是 不 言 而 喻 的 , 第 (5) 点 表示 了 与 集群 系统 之 类 的 松 耦合 多 处 理 系 
统 的 对 照 。 后 者 所 交互 操作 的 物理 单位 通常 是 消息 或 整个 文件 ; 而 SMP 中 ,各 个 的 数据 元 素 能 
成 为 一 个 交互 级 别 ， 于 是 处 理 器 间 能 够 有 高 度 的 相互 协作 。 

SMP 的 操作 系统 能 跨越 所 有 处 理 器 来 调度 进程 或 线程 。 SMP 有 如 下 几 个 超过 单 处 理 器 的 洪 


在 优点 : 


© 性 能 (performance): 如 果 可 以 对 一 台 计 算 机 完成 的 工作 进行 组 织 ， 使 得 某 些 工作 部 分 能 
够 并 行 完 成 ， 则 具有 多 个 处 理 器 的 系统 与 具有 同样 类 型 的 单 处 理 器 的 系统 相 比 ， 将 产生 


更 高 的 性 能 ( 见 图 17-3)。 


e 可 用 性 (availability): 在 一 个 对 称 多 处 理 器 中 ， 所 有 处 理 器 都 能 完成 同样 的 功能 ， 故 单 
个 处 理 器 的 故障 不 会 造成 系统 的 停机 ， 系 统 可 在 性 能 降低 的 情况 下 继续 运行 。 

。 增 量 式 增长 (incremental growth); 用 户 可 以 通过 在 系统 中 添加 处 理 器 来 提高 系统 性 能 。 

。 可 扩展 (scaling): 厂商 能 提供 一 个 产品 范围 ， 它 们 基于 系统 中 配置 的 处 理 器 数目 不 同 而 


有 不 同 的 价格 和 性 能 特征 。 
时 间 
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图 17-3 多 道 程序 和 多 处 理 


应 当 注 意 ， 这 些 只 是 潜在 的 优点 ， 而 不 是 保证 必 有 的 ， 操 作 系 统 必须 提供 相应 工具 和 功能 ， 


以 开发 SMP 系统 中 的 并 行 性 。 

SMP 的 一 个 有 吸引 力 的 特点 是 ， 多 个 处 理 器 
的 存在 对 用 户 是 透明 的 ; 由 操作 系统 实际 管理 各 
个 处 理 器 上 的 进程 或 线程 的 调度 ， 以 及 处 理 器 间 
的 同步 。 


17.2.1 组 织 


图 17-4 说 明了 多 处 理 器 系统 的 一 般 组 成 情 
况 ， 其 中 可 以 有 两 个 或 更 多 的 处 理 器 。 每 个 处 理 
器 是 自 包 含 的 ， 即 包括 有 控制 器 、ALU 、 寄 存 器 
等 。 通 常 ， 还 会 有 一 级 或 多 级 cache。 通 过 某 种 
形式 的 互 连 结构 ， 每 个 处 理 器 能 访问 共享 的 主 存 
储 器 和 LO 设备 。 各 处 理 器 之 间 通 过 存储 器 (位 
于 公共 数据 区 中 的 消息 或 状态 信息 ) 能 相互 通 





图 17-4 紧 看 合 多 处 理 器 的 常规 结构 图 
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信 。 处 理 器 之 间 直 接 交 换 信号 是 可 能 的 。 存 储 器 经 常 组 织 成 允许 对 存储 器 各 个 块 的 多 重 同时 存 
取 。 在 某 些 配 置 中 ， 每 个 处 理 器 除了 共享 资源 之 外 ， 还 允许 有 它 专 用 的 主 存储 器 和 IO 通道 。 
对 个 人 计算 机 、 工 作 站 和 服务 器 而 言 ， 最 普通 的 组 织 是 分 时 共享 总 线 。 分 时 共享 总 线 是 构成 
一 个 多 处 理 器 系统 的 最 简单 结构 〈( 见 图 17-5)。 分 时 共享 总 线 系统 的 结构 和 接口 基本 上 同 于 使 用 
总 线 互 连 的 单 处 理 器 系统 。 总 线 由 控制 、 地 址 和 数据 线 组 成 。 为 便于 来 自 O 处 理 器 的 DMA 传 
送 ， 应 提供 如 下 特征 : 
。 Sit: 必须 能 区 别 总 线 上 各 模块 ， 以 确定 数据 的 源 和 目标 。 
o 仲裁 : 任何 O 模块 都 能 临时 行使 主 控 器 (master) 功能 。 因 此 需要 提供 一 种 机 制 来 对 总 
线 控制 的 竞争 请 求 进行 仲裁 ， 这 可 使 用 某 种 类 型 的 优先 级 策略 。 
。 分 时 复 用 : 当 一 个 模块 正在 控制 总 线 时 ， 其 他 模块 是 被 锁 住 的 ， 而 且 需 要 的 话 ， 应 能 挂 
起 它 的 操作 直到 当前 的 总 线 访问 被 完成 。 
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图 17-5 对称 多 处 理 器 组 织 


这 些 单 处 理 器 特征 在 对 称 多 处 理 器 (SMP) 配置 中 是 直接 可 用 的 。 稍 后 将 会 看 到 ，SMP 中 
有 多 个 处 理 髓 以 及 多 个 VO 处 理 器 都 试图 掌管 总 线 ， 对 一 个 或 多 个 存储 器 模块 进行 访问 的 更 为 复 
杂 的 情况 。 
与 其 他 方法 比较 ， 总 线 组 织 方式 有 如 下 几 个 优点 : 
。 简易 性 : 这 是 多 处 理 器 系统 组 成 的 最 简单 方式 。 物 理 接 口 以 及 每 个 处 理 器 的 寻 址 、 仲 裁 
和 分 时 逻辑 可 与 单 处 理 器 系统 保持 相同 。 
。 灵活 性 : 可 以 通过 附加 更 多 处 理 器 到 总 线 的 方式 来 扩充 系统 ， 这 一 般 来 说 也 是 容易 的 。 
。 可 靠 性 : 本 质 上 来 说 ， 总 线 是 一 个 被 动 介质 ， 并 且 总 线 上 任 一 设备 的 故障 不 会 引起 整个 
系统 的 失败 。 
总 线 组 织 的 主要 缺点 在 于 性 能 。 所 有 的 存储 器 访问 都 要 通过 公共 总 线 ， 于 是 系统 速度 受 限 
于 总 线 周 期 时 间 。 为 改善 性 能 ， 就 要 求 为 每 个 处 理 器 配置 cache， 这 将 有 效 地 减少 总 线 访问 次 数 。 
一 般 来 说 ， 工 作 站 和 PC 的 SMP 组 织 都 有 两 级 cache, L1 cache 是 内 部 的 (与 处 理 器 同一 芯片 )， 
L2 cache 或 是 内 部 的 或 是 外 部 的 。 现 在 ， 某 些 处 理 器 还 使 用 了 L3 cache。 
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cache 的 使 用 导致 某 些 新 的 设计 考虑 ， 因 为 每 个 局 部 cache 只 保存 部 分 存储 器 的 映像 ， 如 果 
在 某 个 cache 中 修改 了 一 个 字 ， 可 想象 出 其 他 cache 中 的 此 字 将 会 是 无 效 的 。 为 防止 这 个 问题 ， 
必须 通知 其 他 处 理 器 : 已 经 发 生 了 修改 。 这 个 问题 称 为 cache 一 致 性 〈cache coherence) 问题 ， 
并 且 一 般 是 用 硬件 解决 ， 而 不 是 由 操作 系统 去 解决 ，17.4 节 将 专门 讨论 这 个 问题 。 


17.2.2 多 处 理 器 操作 系统 设计 考虑 


一 个 SMP 操作 系统 (OS) 管理 多 个 处 理 器 和 其 他 计算 机 资源 ， 而 使 用 户 感觉 到 单一 操作 系 
统 控制 着 系统 资源 。 事 实 上 ， 这 种 配置 应 呈现 为 一 个 单 处 理 器 多 道 程序 设计 系统 。 不 论 是 SMP 
还 是 单 处 理 器 情况 ， 都 可 以 一 次 启动 多 个 作业 或 进程 ; 调度 它们 的 执行 和 分 配 资 源 是 操作 系统 
的 责任 。 用 户 可 构造 使 用 多 进程 或 多 线程 的 应 用 程序 ， 而 无 需 顾及 程序 是 在 单一 处 理 器 还 是 在 
多 个 处 理 器 上 进行 。 于 是 ， 多 处 理 器 操作 系统 必须 提供 多 道 程序 设计 系统 的 所 有 功能 。 以 及 伴随 
多 个 处 理 器 而 来 的 其 他 特征 。 关 键 的 设计 问题 如 下 所 示 : 
© 同时 并 发 进程 (simultaneous concurrent process): OS 例 程 必须 是 可 重 和 的， 以 允许 几 个 处 
理 器 可 同时 执行 同一 OS 代码 。 当 多 个 处 理 器 执行 OS 的 同一 部 分 或 不 同 部 分 时 ， 要 恰当 
地 管理 OS 的 表 和 其 他 数据 结构 ， 以 避免 死 锁 或 无 效 操作 。 
o 调度 (scheduling): 任何 处 理 器 都 可 完成 调度 ， 因 此 必须 避免 冲突 。 调 度 程序 必须 将 就 
绪 进 程 指 派 给 可 用 处 理 器 。 
e 同步 (synchronization) : 由 于 有 多 个 活动 进程 可 能 访问 共享 地 址 空间 ， 或 共享 VO 资源 ， 
因此 必须 提供 有 效 的 同步 。 同 步 是 一 种 机 制 ， 它 保证 相互 排斥 的 访问 和 事件 的 次 序 。 
。 存储 管理 (memory management): 正如 第 8 章 所 讨论 的 ， 多 处 理 器 上 的 存储 管理 必须 解决 
单机 系统 上 出 现 的 所 有 问题 。 此 外 ， 操 作 系 统 还 要 发 掘 可 用 的 硬件 并 行 性 ， 如 多 端口 存 
储 器 ， 以 实现 最 佳 性 能 。 操 作 系 统 必 须 协调 不 同 处 理 器 上 的 分 页 机 制 ， 以 保证 几 个 处 理 
器 共享 页 (B) 时 的 一 致 性 ， 并 在 发 生 页 替换 时 决定 合适 的 操作 。 
。 可 靠 性 和 容错 (reliability and fault tolerant) : 面 对 处 理 器 故障 ， 操 作 系统 应 提供 优雅 的 
降级 使 用 。 调 度 程序 和 操作 系统 的 其 他 部 分 必须 识别 处 理 器 的 失效 ， 并 相应 地 重 构 管 
理 表 。 


17.2.3 大 型 机 SMP 


大 多 数 PC 和 工作 站 SMP 使 用 总 线 互 连 策略 ， 如 图 17-5 所 示 。 考 察 另 一 种 方法 是 有 指导 意 
义 的 ， 它 已 用 于 IBM zSeries 大 型 机 系列 的 最 近 实 现 2990 中 [SIEG04，MAK04 ] 。 这 个 系列 的 产 
品 散布 在 一 个 较 宽 的 范围 内 ， 由 带 一 个 主 存储 器 卡 的 单 处 理 器 到 具有 48 个 处 理 器 和 8 个 存储 器 
卡 的 高 端 系统 。 配 置 (图 17-6) 的 主要 部 件 如 下 : 

© 双核 处 理 器 芯片 (dual-core processor chip): 每 个 处 理 器 芯片 都 包含 两 个 等 同 的 中 央 处 理 
fr (CP)。 此 CP 是 一 个 CISC 超标 量 微 处 理 器 ， 它 的 大 多 数 指令 以 硬 布线 式 实现 ， 其 余 
的 指令 由 垂直 微 代 码 执行 。 每 个 CP 包括 一 个 256KB 的 LI 指令 cache 和 一 个 256KB 的 L1 
数据 cache。 

e L2 cache: 每 个 L2 cache 芯片 的 容量 是 32MB。 这 些 L2 cache 排列 成 5 个 一 组 ， 每 组 支持 
8 个 处 理 器 芯片 ， 并 提供 对 整个 主 存 空间 的 访问 。 
系统 控制 部 件 (system control element, SCE): 该 SCE 仲裁 系统 通信 并 在 维护 cache 一 致 
性 方面 起 核心 作用 。 

主 存储 控制 (main store control, MSC): MSC 与 L2 cache 和 主 存 互 连 。 
存储 器 卡 (memory card): 每 卡 有 32GB 的 存储 容量 。 最 大 可 配置 的 存储 器 由 8 个 存储 器 
卡 组 成 ， 总 容量 为 256GB。 存 储 器 卡 经 由 同步 存储 接口 (synchronous memory interface, 
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CP= 中 央 处 理 器 
MBA = 存储 器 总 线 适 配器 
MSC= 主 存储 控制 
SCE= 系 统 控制 部 件 
SMI= 同 步 存储 接口 


图 17-6 IBM z990 多 处 理 器 结构 


SMI) 连接 到 MSC, 
© 存储 器 总 线 适 配器 (memory bus adapter, MBA); MBA 提供 到 各 类 IO 通道 的 接口 。 去 
往 /来 自 通道 的 通信 量 都 要 直接 走 到 L2 cache, 
2990 中 的 微 处 理 器 与 当代 其 他 处 理 器 相 比 有 些 不 一 般 。 虽 然 它 是 一 个 超标 量 处 理 器 ， 但 它 
以 严格 的 体系 结构 次 序 执行 指令 。 不 过 ， 它 通过 具有 更 短 的 流水 线 ， 相 比 其 他 处 理 器 更 多 、 更 大 
的 cache 和 TLB， 以 及 其 他 性 能 增强 的 特色 弥补 了 这 个 不 足 。 
z990 系统 组 成 1~4 个 又 箱 (book) 。 每 箱 是 一 个 可 揪 拔 单元 ， 可 容 多 达 12 个 处 理 器 、 高 达 
64GB 的 存储 器 、LO 适配器 和 一 个 连接 所 有 这 些 部 件 的 系统 控制 部 件 (SCE) 。 每 箱 中 的 SCE 含 
有 一 个 32MB 的 L2 cache， 它 起 着 该 箱 的 中 央 一 致 性 维护 点 的 作用 。L2 cache 和 主 存 二 者 都 可 由 
此 箱 或 系统 中 其 他 三 箱 的 处 理 器 或 IO 适配器 来 存 取 。SCE 和 L2 cache 芯片 亦 与 环形 配置 (ring 
configuration) 中 其 他 箱 的 相应 部 件 连 接 。 
IBM 2990 SMP 配置 有 几 个 值得 注意 的 特点 。 下 面 依次 对 其 进行 讨论 : 
© 交换 式 互 连 。 
e 共享 的 L2 cache, 
1. 交换 式 互 连 
对 于 PC 和 工作 站 的 SMP， 使 用 单一 共享 总 线 是 常见 的 做 法 (图 17-5 ) ， 此 时 单一 总 线 变 成 
影响 可 扩展 性 (扩展 到 更 大 规模 的 能 力 ) 的 瓶颈 。z990 采用 了 两 种 方法 来 解决 这 个 问题 。 首 先 ， 
主 存 被 分 成 多 个 卡 ， 每 个 卡 有 自己 能 高 速 处 理 存 储 器 存 取 的 存储 控制 器 。 主 存 的 平均 流通 负荷 
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已 被 减轻 ， 因 为 到 存储 器 各 个 部 分 有 独立 的 路 径 。 每 箱包 括 两 个 存储 器 卡 ， 对 于 4 箱 的 最 高 配置 
总 共 可 有 8 个 卡 。 其 次 ， 由 处 理 器 (实际 上 由 L2 cache) 到 单个 存储 器 卡 的 连接 不 再 是 共享 总 线 
形式 ， 而 是 点 对 点 的 链 路 。 每 个 处 理 器 芯片 到 同 箱 的 每 个 L2 cache 都 有 一 条 链 路 ; 每 个 L2 cache 
都 有 一 链 路 连接 到 MSC ， 再 经 由 它 连 接 到 同 箱 两 个 存储 器 卡 的 每 一 个 。 

每 个 L2 cache 仅 连 接 到 同 箱 的 两 个 存储 器 卡 。 系 统 控制 部 件 提供 到 配置 中 其 他 箱 的 链 路 
(图 中 未 画 ) ， 故 全 部 的 主 存 可 被 所 有 处 理 器 存 取 。 

用 点 到 点 的 链 路 而 不 用 总 线 ， 亦 提供 了 对 IO 通道 的 连接 。 箱 上 的 每 个 12 cache 连接 到 该 箱 
上 的 各 个 MBA，MBA 再 连接 到 1/0 通道 。 

2. 共享 的 L2 cache 

在 SMP 的 典型 两 级 cache 策略 中 ， 每 个 处 理 器 有 自己 专用 的 LI cache 和 专用 的 L2 cache, if 
年 来 ， 对 于 共享 的 L2 cache 的 关注 日 益 增长 。 在 第 三 代 (G3) 大 型 机 SMP 的 早期 版 本 中 ，IBM 
使 用 的 是 专用 L2 cache， 在 后 来 的 版 本 (G4、G5 和 2900 系列 ) 中 使 用 的 是 共享 L2 cache。 进 行 
这 种 改变 有 两 个 考虑 : 

(1) 由 G3 到 G4, IBM 将 微 处 理 器 的 速度 提高 了 一 倍 。 如 果 仍 维持 G3 的 组 织 ， 则 现 有 总 线 
的 流量 会 显著 增加 。 与 此 同时 ， 又 要 求 尽 量 使 用 G3 部 件 。 如 果 不 显著 提升 总 线性 能 ，BSN 将 变 
成 瓶颈 。 

(2) 典型 的 工作 负载 分 析 揭示 出 ， 处 理 器 之 间 存 在 大 量 共 享 的 指令 和 数据 。 

这 些 因 素 使 64 设计 小 组 决定 使 用 一 个 或 多 个 L2 cache， 每 个 被 多 个 处 理 器 共享 (每 个 处 理 
器 仍 有 一 个 专用 的 片 内 Ll cache) 。 乍 一 看 ， 共 享 一 个 L2 cache 可 能 是 个 糟糕 的 想法 ， 因 为 处 理 
器 现在 必须 竞争 对 单个 L2 cache 的 存 取 ， 而 使 处 理 器 对 存储 器 的 访问 变 慢 。 然 而 ， 如 果 有 足够 多 
的 数据 实际 上 是 被 多 个 处 理 器 共享 ， 那 么 共享 的 L2 cache 能 提高 吞吐 率 ， 而 不 是 降低 它 。 如 果 数 
据 是 共享 的 ， 并 在 共享 cache 中 找到 了 ， 那 么 得 到 它们 要 比 经 由 总 线 得 到 它们 快 得 多 。 


17.3 cache 一致 性 和 MESI 协议 


当代 多 处 理 器 系统 中 ,通常 是 每 个 处 理 咒 都 有 一 级 或 两 级 cache。 这 种 组 织 是 出 于 性 能 的 考 
虑 ， 然 而 也 产生 了 一 个 称 为 cache 一 致 性 的 问题 。 此 问题 是 : 同一 数据 的 多 个 副本 可 能 同时 存在 
于 不 同 的 cache 中 。 若 允许 处 理 器 自由 地 修改 它们 自己 的 副本 ， 就 会 导致 不 同 cache 对 存储 器 中 
同一 数据 的 反映 不 一 致 。 第 4 章 曾 定义 了 两 种 通用 的 写 策略 。 

e 回 写 (write back) : 写 操作 通常 只 是 对 cache 进行 ， 仅 当 此 cache 数据 行 由 cache 换 出 时 ， 

相应 的 主 存 内 容 才 被 修改 。 

e 写 直达 (write through): 所 有 写 操作 既 对 cache 也 对 主 存 进行 ， 保 证 主 存 总 是 有 效 的 。 

很 显然 ， 回 写法 会 导致 不 一 致 。 如 果 两 个 cache 保存 同一 行 数 据 ， 一 个 cache 修改 了 此 行 ， 
另 一 个 cache 将 不 知道 它 保存 的 已 是 过 时 数据 ， 尔 后 读 此 行 数据 ， 将 产生 一 个 无 效 结果 。 即 使 采 
用 写 直达 法 ， 也 会 出 现 不 一 致 ， 除 非 其 他 cache 监督 存储 器 的 访问 情况 ， 或 接收 某 些 直接 的 修改 
指示 。 

本 节 我 们 先 简要 介绍 解决 cache 一 致 性 问题 的 几 种 方法 ， 然 后 集中 介绍 最 广泛 使 用 的 方法 : 
MESI 协议 。 这 个 协议 的 不 同 版 本 已 分 别 用 于 Pentium 4 和 PowerPC 的 实现 中 。 

对 任何 cache 一 致 性 协议 ， 目 标 都 是 让 近期 使 用 的 局 部 变量 进入 cache， 并 保留 在 那里 ， 经 
历 多 次 读 和 写 ， 而 使 用 协议 来 维护 同时 可 出 现在 多 个 cache 中 的 共享 变量 的 一 致 性 。cache 一 臻 
性 方法 通常 可 分 为 软件 方法 和 硬件 方法 。 某 些 实现 采用 了 二 者 相 结合 的 策略 。 无 论 如 何 ， 分 类 成 
软件 方法 和 硬件 方法 是 有 指导 意义 的 ， 并 广泛 用 于 评价 cache 一 致 性 。 
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17.3.1 软件 解决 方案 


cache 一 致 性 问题 的 软件 解决 方法 的 思路 是 : 依赖 于 编译 程序 和 操作 系统 来 解决 问题 ， 力 图 
避免 附加 硬件 电路 和 逻辑 。 因 为 确定 潜在 不 一 致 问 题 的 开销 由 运行 时 转换 成 编译 时 ， 设 计 的 复 
杂 性 由 硬件 转移 到 软件 ， 故 软件 解 译 方法 是 很 有 吸引 力 的 。 从 另 一 方面 看 ， 编 译 时 软件 方法 一 般 
采取 的 是 保守 性 的 判决 ， 这 会 导致 cache 利用 率 的 下 降 。 

基于 编译 程序 的 一 致 性 机 制 通过 进行 代码 分 析 ， 来 确定 什么 样 的 数据 项 对 于 高 速 缓存 可 能 
会 变 成 不 安全 的 ， 然 后 相应 地 标记 出 这 些 项 。 操 作 系 统 或 硬件 来 防止 这 些 不 可 高 速 缓存 的 项 进 
A. cache, 

最 简单 的 方法 是 不 准 任何 共享 数据 变量 被 高 速 缓 存 。 但 这 种 方法 太保 守 了 ， 因 为 一 个 共享 
数据 结构 可 以 在 某 些 时 期 内 是 排他 性 使 用 的 ， 并 可 在 某 些 其 他 时 期 内 是 只 读 的 。 只 有 在 如 下 的 
期 间 内 : 即 至 少 一 个 进程 去 修改 变量 而 同时 至 少 有 另 一 个 进程 会 去 访问 此 变量 ， 才 会 出 现 cache 
一 致 性 问题 。 

更 有 效 的 方法 是 分 析 代码 来 确定 共享 变量 的 安全 期 间 。 然 后 ， 编 译 程序 在 生成 代码 中 插 人 
指令 ， 以 在 临界 期 间 实 施 cache 一 致 性 的 维护 。 已 研制 了 几 种 技术 用 于 代码 分 析 和 保证 结果 的 正 
确 性 ， 详 见 [LILJ93] 和 [STEN9O] 。 


17.3.2 ”硬件 解决 方案 


基于 硬件 的 解决 方法 通常 称 为 cache 一 致 性 协议 ， 它 提供 了 对 运行 时 潜在 的 不 一 致 情况 的 动 
态 识别 。 因 为 是 在 问题 实际 发 生 时 及 时 解决 ， 所 以 cache 的 使 用 更 有 效 ， 性 能 的 改善 要 比 软件 解 
决 方法 好 。 另 外 ， 这 些 方法 对 程序 员 和 编译 程序 都 是 透明 的 ， 也 减轻 了 软件 开发 负担 。 

不 同 的 硬件 解决 方法 在 几 个 具体 细节 上 有 所 不 同 ， 包 括 数 据 行 状态 信息 保存 在 何 处 ， 信 息 
是 如 何 组 织 的 ， 在 何 处 实施 一 致 性 维护 以 及 实施 结构 又 是 怎样 的 等 。 通 常 ， 硬 件 解 决 方法 分 成 两 
KE: 目录 协议 (directory protocol) 和 监听 协议 (snoopy protocol ) 。 

1. 目录 协议 

目录 协议 收集 并 维护 有 关 数 据 块 副 本 驻 存在 何 处 的 信息 。 典 型 地 ， 系 统 有 一 集中 式 控制 器 ， 
它 是 主 存 控 制 器 的 一 部 分 ， 目 录 就 存 于 主 存 中 。 目 录 含 有 关于 各 个 局 部 cache 内 容 的 全 局 性 状态 
信息 。 当 某 个 cache 控制 器 产生 一 个 访问 请 求 时 ， 集 中 式 控 制 器 检查 此 请 求 并 发 出 必要 的 命令 ， 
以 在 存储 器 和 cache 之 间 ， 或 cache 相互 之 间 传 送 数据 。 它 亦 负责 保持 状态 信息 的 更 新 。 于 是 ， 
任何 一 个 能 影响 cache 数据 行 全 局 状态 的 局 部 动作 必须 报告 给 中 央 控 制 器 。 

一 般 来 说 ， 控 制 器 维护 着 关于 哪个 处 理 器 拥有 哪个 数据 行 副 本 的 信息 。 在 处 理 器 向 局 部 的 
cache 行 副本 写 入 之 前 ， 它 必须 向 控制 器 请 求 排他 性 存 取 权 。 在 同意 这 次 排他 性 存 取 之 前 ， 控 制 
器 发 送 一 个 消息 给 所 有 包含 该 行 副 本 高 速 缓存 的 处 理 器 ， 以 强迫 每 个 处 理 器 使 它 的 副本 无 效 。 
接收 到 这 些 处 理 器 返回 的 认可 后 ， 控 制 器 才 将 排他 性 存 取 权 授 给 请 求 的 处 理 器 。 当 一 行 已 授权 
给 某 处 理 器 专 有 ， 而 另外 的 处 理 器 企图 读 此 行 时 ， 它 将 送出 一 个 未 命中 提示 给 控制 器 。 控 制 器 则 
向 拥有 此 行 的 处 理 器 发 出 命令 ， 要求 它 将 此 行 写 回 到 主 存 。 于 是 ， 现 在 此 行 可 被 原先 的 处 理 器 和 
请 求 的 处 理 器 读 共享 了 。 

目录 协议 有 中 央 瓶 颈 的 缺点 ， 另 外 各 cache 控制 器 和 中 央 控 制 器 之 间 的 通信 开销 也 大 。 然 
而 ， 在 采用 了 多 条 总 线 或 某 种 另外 的 复杂 互 连 结构 的 大 型 系统 中 ， 它 们 是 很 有 效 的 。 

2. 监听 协议 

监听 协议 将 维护 cache 一 致 性 的 责任 分 布 到 多 处 理 右 中 各 个 cache 控制 器 上 。 一 个 cache 必须 
识别 出 何 时 它 保有 的 一 行 是 与 其 他 cache 共享 的 。 当 对 共享 的 cache 行 完 成 一 个 修改 动作 时 ， 它 
必须 通过 一 种 广播 机 制 通知 所 有 其 他 cache。 各 个 cache 控制 器 应 能 监听 互联 网 络 ， 以 得 到 这 些 
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广播 通知 ， 并 做 出 相应 的 反应 。 

监听 协议 非常 适合 于 基于 总 线 的 多 处 理 器 ， 因 为 共享 的 总 线 能 为 广播 和 监听 提供 简洁 的 方 
式 。 然 而 ， 使 用 局 部 cache 的 一 个 目标 就 是 希望 避免 或 减少 总 线 访问 ， 因 此 必须 小 心地 设计 ,不 
使 由 于 广播 和 监听 而 增加 的 总 线 传输 开销 抵消 掉 使 用 局 部 cache 的 获 益 。 

， 监听 协议 已 开发 出 两 种 基本 方法 : 写 - 作 废 (write-invalidate) 和 写 - 更 新 (write-update) Jy 
法 。 使 用 写 -作废 协议 ， 系 统 任 一 时 刻 可 有 多 个 读 取 者 ,但 只 有 一 个 写 人 者 。 最 初 ， 一 个 数据 行 
可 能 在 几 个 cache 中 为 读 目的 而 共享 。 当 某 个 cache 要 对 此 行 完成 一 个 写 操作 时 ， 它 要 先 发 出 一 
个 通知 ， 以 使 其 他 cache 中 此 行 变 为 无 效 ， 使 此 行 成 为 要 执行 写 操作 的 cache 专 有 。 —H cache fF 
变 为 专 有 ， 拥 有 者 处 理 器 就 可 进行 本 地 写 操 作 ， 直 到 某 些 其 他 处 理 器 要 求 此 同一 数据 行 。 

写 - 更 新 协议 又 称 为 写 - 广 播 (write-broadcast) 协议 。 根 据 这 样 的 协议 ， 系 统 可 有 多 个 写 人 
者 以 及 多 个 读 取 者 。 当 一 个 处 理 器 打算 修改 一 个 共享 行 时 ， 欲 被 修改 的 特定 数据 字 亦 被 广播 到 
所 有 其 他 cache， 于 是 包含 此 行 的 cache 能 同时 进行 写 人 修改 。 

两 种 方法 谈 不 上 哪个 更 好 些 ， 性 能 取决 于 局 部 cache 的 数量 和 存储 器 读 、 写 的 样式 。 某 些 系 
统 的 实现 既 可 适用 写 -作废 协议 ， 也 可 适用 写 - 更 新 协议 。 

写 -作废 协议 已 广泛 用 于 像 Pentium 4 和 PowerPC 这 样 的 商业 多 处 理 器 系统 中 。 它 (使 用 
cache 标记 中 的 额外 两 位 ) 标 出 每 个 cache 行 的 状态 是 修改 (Modified)、 专 有 “(Exclusive) 、 共 享 
(Shared) 还 是 无 效 (Invalid) 。 因 此 ， 写 -作废 协议 也 被 称 为 MESI 协议 。 本 节 的 剩余 部 分 ,我 
们 将 考察 它 在 多 处 理 器 的 各 局 部 cache 中 的 使 用 。 出 于 简化 的 考虑 ， 我 们 将 不 考察 涉及 局 部 的 以 
及 经 过 分 布 式 多 处 理 器 的 Ll 和 L2 cache 协调 机 制 。 如 果 对 这 些 协调 机 制 进行 考察 ， 也 不 会 使 我 
们 了 解 更 多 的 原理 ， 但 会 使 讨论 变 得 很 复杂 。 


17.3.3 MESI 协议 


为 维护 SMP 中 的 cache 一 致 性 ， 数 据 cache 通常 支持 MESI 的 协议 。 根 据 MESI 协议 ， 数 据 
cache 的 每 行 包括 一 个 两 个 状态 位 的 标记 (tag) ， 这 样 每 行 可 处 于 下 列 4 种 状态 之 一 : 

© 修改 态 (modified) : 此 cache 行 已 被 修改 (不同 于 主 存 ) ， 并 仅 在 这 个 cache 中 。 

e 专 有 态 (exclusive): 此 cache 行 同 于 主 存 ， 但 不 出 现 于 任何 其 他 cache 中 。 

e 共享 态 (shared) : 此 cache 行 同 于 主 存 ， 并 可 出 现 于 另外 的 cache 中 。 

© 无 效 态 (invalid): 此 cache 行 不 含有 效 数 据 。 

表 17-1 总 结 了 4 种 状态 的 意义 。 图 17-7 展示 了 MESI 协议 的 状态 图 。 注 意 ， 每 个 cache 行 有 
自己 的 状态 位 ， 因 此 每 个 cache 行 本 身 的 状态 变化 就 实现 了 所 示 的 状态 图 。 图 17-7a 表示 的 是 ， 
由 于 连接 这 个 cache 的 处 理 器 发 起 动作 而 发 生 的 状态 转换 。 图 17-7b 表示 的 是 ， 由 于 监听 到 公共 
总 线 上 的 事件 而 发 生 的 状态 转换 。 对 处 理 器 发 起 的 和 总 线 发 起 的 动作 ， 分 别 给 出 状态 图 ， 这 样 有 
助 于 和 弄 清 楚 MESI 协议 的 逻辑 。 注 意 ， 任 何 时 候 cache 行 只 处 于 单一 状态 ， 如 果 下 一 个 事件 来 自 

* 所 连接 的 处 理 器 ， 那么 状态 转换 由 图 17-7a 给 出 ; 如 果 下 一 个 事件 来 自 总 线 ， 那 么 状态 转换 由 图 
17-7b 给 出 。 下 面 让 我 们 更 详细 地 考察 这 些 转换 。 


表 17-1 MESI cache 数据 行 状态 
M 已 修改 E 独 有 S 共享 I 无 效 
该 高 速 缓 存 数据 行 有 效 是 是 是 T 
内 存 副本 是 …… 旧 的 
其 他 cache 有 此 数据 行 的 副本 F 
写 人 到 该 数据 行 不 发 送 到 总 线 
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b) 监听 cache 中 的 数据 行 
(人 ) 修改 过 的 行 拷贝 回 内 存 


O Hem 
(6 目的 在 于 修改 的 读 操作 


wt 
Hs, RME o 
监听 命中 ， 写 操作 或 目的 在 于 _ 
修改 的 读 操作 (人 壤 充 cache 数 据 生 





图 17-7 MESI 状态 转移 图 


1. 读 缺 失 

当 一 个 局 部 cache 出 现 读 缺 失 时 ， 处 理 器 启动 一 个 存储 器 读 ， 以 读 取 包 含有 此 未 命中 地 址 的 
主 存 行 。 处 理 器 在 总 线 上 发 出 一 个 信号 ， 通 知 所 有 其 他 处 理 器 /cache 单元 监听 此 事务 。 这 会 有 几 
种 可 能 出 现 : 

© 若 另 一 处 理 器 有 此 行 的 未 修改 副本 〈 由 主 存 读 人 后 未 被 修改 过 ) ， 并 处 于 专 有 态 ， 则 它 返 
回 一 个 信号 ， 指 示 它 共享 此 行 。 发 出 响应 的 处 理 器 然后 将 它 的 副本 状态 由 专 有 转换 成 共 
享 。 启 动 读 操作 的 处 理 器 由 主 存 读 和 人 此 行 ， 并 将 此 行 的 状态 由 无 效 转换 成 共享 。 
若 一 个 或 多 个 cache 有 处 于 共享 状态 的 此 行 的 干净 副本 ， 则 它们 中 每 个 都 指示 共享 此 行 。 
启动 读 操作 的 处 理 器 由 主 存 读 入 此 行 ， 并 将 此 行 的 状态 由 无 效 转换 成 共享 。 
若 另 一 cache 有 此 行 修改 过 的 副本 ， 则 此 cache 阻塞 存储 器 读 ， 并 将 此 行经 由 总 线 提 供给 。 
发 出 请 求 的 cache。 发 出 请 求 的 cache 则 把 此 行 的 状态 从 无 效 改 变 为 共享 。 发 送 给 请 求 
cache 的 数据 行 也 会 被 存储 控制 器 接收 并 处 理 ， 将 其 保存 到 存储 器 中 。 
若 任何 其 他 cache 都 无 此 行 的 副本 〈 新 的 或 修改 过 的 ) ， 则 没有 信号 返回 。 启 动 处 理 器 读 
入 此 行 ， 并 将 此 行 状态 由 无 效 转换 成 专 有 。 


O 在 一 些 实现 中 ， 拥 有 修改 过 数据 行 的 cache 会 向 启动 处 理 器 发 出 一 个 重 试 信号 。 此 时 ， 拥 有 修改 过 数据 副本 的 处 
理 器 获取 总 线 控制 权 ， 将 修改 过 的 数据 行 副本 写 回 到 主 存 中 ， 并 将 其 cache 中 该 数据 行 状态 从 修改 转换 到 共享 。 
接 下 来 ， 原 先 发 出 请 求 的 处 理 器 再 次 发 出 读 请 求 ， 这 次 会 发 现 一 个 或 多 个 处 理 器 拥有 该 数据 行 处 于 共享 状态 的 干 
净 副 本 ， 于 是 按照 前 一 点 描述 的 情况 操作 。 
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2. 读 命中 

当 读 命中 出 现在 当前 局 部 cache 行 时 ， 处 理 器 简单 地 读 取 所 需 数据 项 ， 没 有 任何 状态 改变 ; 
仍 保留 在 修改 、 共 享 或 专 有 状态 

3. 写 缺失 

局 部 cache 出 现 写 缺 失 时 ， 处 理 器 启动 一 个 存储 器 读 ， 来 读 取 含 有 此 末 命 中 地 址 的 主 存 行 。 
为 了 写 入 修改 的 目的 ， 处 理 器 在 总 线 上 发 出 一 个 意 为 “用 于 修改 的 读 ” (read: with-intent-to-mod- 
ify, RWITM) 信号 。 当 此 行 装 人 后 ， 它 立即 标记 为 修改 态 ， 并 进行 写 信 修改。 依据 其 他 cache 状 
况 ， 在 进行 数据 行 装 人 时 会 有 两 种 情况 。 

第 一 种 情况 ， 其 他 某 个 cache 有 此 行 的 修改 副本 (状态 为 修改 态 ) 。 这 种 情况 下 ， 被 通知 的 
处 理 器 告诉 启动 处 理 器 ， 它 有 此 行 的 修改 过 的 副本 ; 启动 处 理 器 放弃 总 线 并 等 待 ; 而 被 通知 的 处 
理 器 获得 总 线 访问 权 ， 并 将 它 修改 过 的 副本 写 回 主 存 ， 并 将 此 cache 行 状 态 转换 成 无 效 〈 因 为 启 
动 处 理 器 正 要 修改 此 行 ) 。 接 着 ， 启 动 处 理 器 再 一 次 在 总 线 上 发 出 RWITM 信和 号， 然后 从 主 存 中 
读 取 该 行 ， 修 改 cache 中 的 行 ， 并 把 该 行 标识 为 修改 状态 。 

第 二 种 情况 ， 任 何其 他 cache 都 没有 所 要 求 行 修改 过 的 副本 ， 也 就 没有 信和 号 返回 ， 启 动 处 理 
器 着 手 它 请 求 的 行 读 入 并 修改 的 操作 。 在 此 期 间 ， 若 一 个 或 多 个 处 理 器 有 此 行 的 干净 副本 并 处 
于 共享 状态 ， 则 每 个 处 理 器 都 要 将 它 的 副本 变 为 无 效 ; 若 一 个 处 理 器 有 此 行 的 干净 副本 而 处 于 
专 有 状态 ， 则 它 同 样 要 将 此 副本 作废 。 

4. 写 命中 

当 写 命中 出 现在 当前 局 部 cache 行 上 时 ， 效 应 取决 于 局 部 cache 中 此 行 的 当前 状态 : 

e 共享 : 完成 写 修改 之 前 ， 处 理 器 必须 先 得 到 此 行 的 专 有 权 。 处 理 器 在 总 线 上 通告 它 的 打 
算 cache 中 含有 此 行 共享 副本 的 各 处 理 器 将 各 自 的 cache 行 状 态 由 共享 变 成 无 效 。 然 后 ， 
启动 处 理 器 完成 写 修改 ， 并 将 它 的 cache 行 副 本 状态 由 共享 转换 成 修改 。 
专 有 : S2Re Teer ae ee 故 它 只 需要 简单 地 完成 写 修改 ,并 将 此 行 的 状 
态 由 专 有 变 为 修改 。 
修改 : 处 理 器 已 有 对 此 行 的 排他 性 控制 ， 并 已 标志 此 行为 修改 态 。 它 只 需要 简单 地 完成 
写 修 改 。 

5. L1-L2 cache 的 一 致 性 

至 此 ， 本 书 所 介绍 的 cache 一 致 性 是 通过 连接 到 同一 总 线 或 其 他 SMP 互 连 结构 上 的 各 cache 
之 间 的 协同 动作 来 实现 的 。 一 般 而 言 ， 这 些 cache 是 L2 cache， 而 每 个 处 理 器 还 有 一 个 Ll cache, 
它 不 直接 连 到 总 线 上 ， 因 而 也 不 能 直接 参与 监听 协议 的 活动 。 于 是 ， 需 要 某 种 策略 来 维护 SMP 
配置 中 跨越 两 级 cache 和 跨越 所 有 cache 的 数据 完整 性 。 

策略 是 扩展 MEST 协议 (或 任何 其 他 cache 一 致 性 协议 ) 到 Ll cache。 于 是 ， 每 个 Ll cache 
行 都 包括 指示 状态 的 位 。 本 质 上 ， 目 标 如 下 : 对 于 既 出 现在 L2 cache 中 又 出 现在 相应 Ll cache 中 
的 任何 行 ，L1 行 的 状态 应 追踪 [2 行 的 状态 。 实 现 此 目标 的 最 简单 方式 是 在 Ll cache 使 用 写 直 达 
策略 ; 这 种 情况 下 ， 写 直达 是 到 L2 cache 而 不 是 到 存储 器 。L1 写 直 达 策 略 迫 使 对 LI 行 的 任何 修 
改 都 送出 到 L2 cache; 于 是 ,使 这 一 修改 对 其 他 L2 cache 都 是 可 见 的 。L1 使 用 写 直 达 策 略 要 求 
Ll 的 内 容 必须 是 L2 内 容 的 子 集 。 这 又 暗示 L2 cache 的 关联 度 应 等 于 或 大 于 Ll cache 的 关联 度 。 
IBM S/390 SMP 采用 了 L1 写 直达 策略 。 

如 果 Ll cache 使 用 了 回 写 策略 ， 两 个 cache 间 的 关系 将 会 更 复杂 。 已 有 几 种 方法 用 于 维护 这 
种 情况 下 的 cache 一 致 性 。 其 中 一 种 方法 用 于 Pentium I, Jl [SHAN05] 。 


17.4 多 线程 和 片上 多 处 理 器 
处 理 器 性 能 一 个 重要 的 评测 指标 是 它 执行 指令 的 速率 。 这 可 表示 成 : 
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MIPS 速率 =f x IPC 

这 里 , f 是 处 理 器 时 钟 频 率 ， 单 位 为 MHz; IPC (instructions per cycle) 是 平均 每 周期 执行 指 
令 数 。 于 是 ,设计 者 在 两 个 方面 追求 增强 性 能 的 目标 : 提高 时 钟 频率 和 提高 平均 每 周期 执行 的 指 
令 数 ,或 严格 地 说 ， 即 提高 在 单个 处 理 器 周期 期 间 所 完成 的 指令 数 。 正 如 在 前 面 几 章 所 看 到 的 ， 
设计 者 通过 使 用 指令 流水 线 和 在 超标 量 体 系 结构 中 使 用 多 条 并 行 的 指令 流水 线 办 法 来 提高 IPC。 
在 流水 线 或 多 条 流水 线 设 计 中 ， 其 原理 性 问题 是 各 个 流水 段 利 用 的 最 大 化 。 为 提高 吞吐 率 ， 设 计 
人 员 提 出 了 更 为 复杂 的 机 制 ， 例 如 以 不 同 于 指令 流 顺 序 的 次 序 执行 某 些 指令 ， 以 及 猜测 执行 一 
些 可 能 不 会 被 执行 的 指令 。 但 正如 2.2 节 所 讨论 过 的 那样 ， 由 于 复杂 性 和 所 涉及 的 功率 消耗 ， 这 
种 办 法 最 终 会 达到 一 个 限制 点 。 

一 种 替代 的 办 法 是 多 线程 化 〈multithreading) ， 它 允许 高 度 的 指令 级 并 行 而 不 增加 电路 复杂 
性 和 功率 消耗 。 从 本 质 上 讲 ， 这 种 办 法 是 将 指令 流 分 成 几 个 更 细小 的 流 ， 称 为 线程 ; 这样， 这些 
线程 可 能 并 行 执行 。 

在 商业 系统 和 实验 系统 中 所 实现 的 各 种 专用 多 线程 设计 类 型 非常 丰富 。 本 节 简 要 介绍 其 主 
要 概念 。 


17.4.1 隐 式 和 显 式 多 线程 


多 线程 处 理 器 讨论 中 所 使 用 的 线程 概念 ， 可 能 同 于 也 可 能 不 同 于 多 道 程序 操作 系统 设计 中 
的 软件 线程 概念 。 简 要 定义 如 下 术语 将 是 有 用 的 : 
© 进程 (process): 在 计算 机 上 运行 的 一 个 程序 实例 ， 它 体现 出 如 下 两 个 主要 特征 。 
=" 资源 占有 (resource ownership): 进程 包括 一 个 包含 进程 映像 的 虚拟 地 址 空间 ; 进程 映 
像 是 定义 进程 的 程序 、 数 据 、 栈 和 属性 的 集合 。 随 着 时 间 的 推移 ， 进 程 会 分 配 到 如 主 
FE. VO 设备 和 文件 这 样 资源 的 控制 或 占有 权 。 
m 调度 /执行 (scheduling/execution) : 一 个 进程 的 执行 沿 一 条 执行 路 径 (踪迹 ) 流 经 一 个 
或 多 个 程序 。 这 个 执行 可 能 与 其 他 进程 的 执行 相交 错 。 于 是 ， 一 个 进程 具有 各 种 执行 
状态 (运行 、 就 绪 等 ) ALKA (dispatch) 优先 权 。 进 程 是 操作 系统 调度 和 派发 的 一 个 
实体 。 
。 进程 切换 (process switch) : 将 处 理 器 由 一 个 进程 转换 到 另 一 个 进程 的 操作 。 它 通过 保存 
第 一 个 进程 的 所 有 控制 数据 、 寄 存 器 和 其 他 信息 ， 并 以 第 二 个 进程 的 信息 来 替换 它们 而 
完成 。 
e 线程 (thread) : 进程 内 可 派发 的 任务 单位 。 它 包括 一 个 处 理 嚣 上下文 〈 程 序 计 数 器 和 栈 
指针 等 ) 和 它 专 有 的 栈 数据 区 域 ( 以 允许 子 例 程 转移 ) 。 线 程 顺序 执行 并 可 中 断 ， 这 样 
处 理 器 能 转向 另 一 线程 。 
。 线程 切换 (thread switch) : 在 同一 进程 中 ， 将 处 理 器 控制 由 一 线程 转换 到 另 一 线程 的 动 
作 。 通 常 ， 这 类 切换 的 代价 要 比 进程 切换 少 得 多 。 
于 是 ， 线 程 关注 的 只 是 调度 /执行 ， 而 进程 关注 的 是 调度 /执行 和 资源 占有 。 一 个 进程 中 的 多 
个 线程 共享 同样 资源 。 这 是 为 什么 线程 切换 的 耗 时 要 比 进程 切换 少 得 多 的 原因 。 像 UNIX 早期 版 
本 这 样 的 传统 操作 系统 不 支持 线程 。 大 多 数 当 代 操 作 系 统 ， 如 Linux、UNIX 后 期 版 本 、Windows 
等 ， 都 支持 线程 。 应 区 分 用 户 级 线程 和 内 核 级 线程 ， 前 者 对 应 用 程序 是 可 见 的 ， 后 者 仅 对 操作 系 
统 是 可 见 的。 两 者 都 称 为 显 式 线程 ， 因 它们 是 软件 中 定义 的 。 








O 术语 “上 下 文 切 换 ”( context switch) 通常 出 现在 有 关 操 作 系统 的 文献 和 教材 中 。 不 幸 的 是 ， 虽 然 大 多 数 文献 使 用 
该 术语 表示 这 里 所 说 的 进程 切换 ， 但 是 另外 一 些 文献 使 用 该 术语 来 表示 线程 切换 。 因 此 ， 为 避免 歧义 ， 此 处 使 用 
进程 切换 而 非 上 下 文 切换 。 
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所 有 商业 处 理 器 和 大 多 数 实 验 处 理 器 至 今 使 用 的 都 是 显 式 多 线程 。 这 些 系统 并 发 执行 来 自 
不 同 显 式 线程 的 指令 ， 或 通过 在 共享 流水 线 上 交错 执行 来 自 不 同 线程 的 指令 ， 或 通过 在 并 行 流 
水 线 上 的 并 行 执行 来 实现 多 线程 。 隐 式 多 线程 化 指 的 是 ， 从 单个 顺序 程序 中 提取 多 个 线程 来 并 
发 执行 。 这 些 隐 式 线程 可 静态 地 被 编译 器 定义 或 动态 地 被 硬件 定义 。 本 节 的 其 余部 分 只 考虑 显 
式 多 线程 化 。 


17.4.2 显 式 多 线程 的 方式 


首先 ， 多 线程 式 处 理 器 必须 为 并 发 执行 的 每 个 线程 提供 一 个 分 立 的 程序 计数 器 。 不 同 的 设 
计 区 别 在 于 为 支持 并 发 多 线程 执行 所 添加 的 硬件 类 型 和 总 量 。 通 常 ， 以 线程 为 基础 来 进行 取 指 
令 操 作 。 处 理 器 分 别 对 待 每 个 线程 ， 并 可 用 几 种 技术 来 优化 单线 程 的 执行 ， 这 包括 分 支 预测 、 寄 
存 器 重 命名 和 超标 量 技术 。 我 们 要 实现 的 是 线程 级 并 行 性 ， 它 与 指令 级 并 行 性 结合 后 会 提供 极 
大 的 性 能 改善 。 

概括 来 说 ， 多 线程 化 有 如 下 4 种 办 法 : 

e 交错 式 多 线程 (interleaved multithreading): 这 亦 称 为 细 粒 度 多 线程 (fine-grained mul- 
tithreading) 。 处 理 器 同时 处 理 两 个 或 多 个 线程 上 下 文 ， 每 个 时 钟 周期 由 一 个 线程 切换 到 
另 一 个 线程 。 若 由 于 数据 相关 性 或 存储 器 等 待 而 使 一 个 线程 阻塞 ， 则 跳 过 此 线程 去 执行 
另 一 个 就 绪 线 程 。 
阻塞 式 多 线程 (blocked multithreading): 这 亦 称 为 粗 粒 度 多 线程 (coarse-grained mul- 
tithreading) 。 线 程 的 指令 连续 地 执行 ， 直 到 如 cache 缺失 这 类 引起 延迟 的 事件 出 现 。 这 类 
事件 引发 处 理 器 切换 到 另 一 线程 。 这 种 办 法 在 按 序 执行 的 处 理 器 上 是 比较 有 效 的 ， 因 为 
像 cache 缺失 这 类 的 延迟 事件 会 使 流水 停顿 。 
同时 多 线程 (simultaneous multithreading, SMT): 来 自 多 个 线程 的 指令 同时 发 射 到 超标 量 
处 理 器 的 执行 单元 。 它 将 超标 量 多 条 指令 发 射 的 能 力 与 多 个 线程 上 下 文 的 使 用 相 结合 。 
片上 多 处 理 (chip multiprocessing): 这 种 情况 是 完整 处 理 器 在 单一 芯片 上 进行 复制 ， 每 个 
处 理 器 处 理 一 个 分 立 线 程 。 这 种 办 法 的 优点 是 ， 能 有 效 地 使 用 芯片 上 可 用 逻辑 面积 而 不 
依赖 复杂 性 日 益 增 长 的 流水 线 设 计 。 

对 于 前 两 种 办 法 ， 来自 不 同 线程 的 指令 不 是 同时 被 执行 的 ， 而 是 通过 使 用 不 同 的 寄存 器 组 
和 其 他 上 下 文 信息 ， 处 理 器 能 快速 地 由 一 个 线程 切换 到 另 一 个 线程 。 这 使 得 处 理 器 的 执行 资源 
更 好 地 得 到 利用 ， 并 避免 了 由 于 cache 缺失 和 其 他 延迟 事件 所 造成 的 较 大 性 能 损失 。SMT 办 法 利 
用 被 复制 的 执行 资源 ， 完 成 了 来 自 不 同 线程 的 指令 真正 地 同时 被 执行 。 片 上 多 处 理 亦 允许 来 自 
不 同 线程 的 指令 同时 执行 。 

基于 [UNCE02] 的 图 17-8 展示 了 一 些 涉及 多 线程 化 的 可 能 的 流水 体系 结构 ， 并 将 它们 与 不 
使 用 多 线程 的 办 法 相对 照 。 每 个 水 平行 代表 一 个 执行 周期 可 有 的 发 射 槽 ? ; 即 每 行 的 宽度 对 应 于 
单一 时 钟 周期 所 能 发 射 的 最 大 指令 数 。 垂 直方 向 表示 时 钟 周期 的 时 间 顺 序 。 一 个 空 槽 ( 画 有 阴 
影 ) 代表 在 流水 线 中 未 被 用 于 执行 的 槽 。 用 N 表示 无 操作 (no-op)。 

图 17-8 的 前 三 个 说 明了 标量 ( 即 单 发 射 ) 处 理 器 所 使 用 的 不 同 办 法 : 

o 单线 程 标量 (single-threaded scalar); 这 是 在 传统 RISC 和 CISC 机 器 上 见 到 的 简单 流水 线 ， 

没有 多 线程 。 





O RA (issue slot) 是 在 一 给 定时 钟 周期 内 可 发 射 指令 所 来 自 的 位 置 。 回 顾 第 14 章 中 指令 发 射 的 介绍 ， 指 令 发 射 
是 在 处 理 器 功能 单元 上 启动 指令 执行 的 过 程 。 这 发 生 在 指令 从 流水 线 的 译 码 阶 段 向 流水 线 执行 阶段 第 一 级 前 进 的 
时 候 。 
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i) 阻塞 式 多 线程 VLIW j) 同 时 多 线程 (SMT) k) 片上 多 处 理 器 (多 核 ) 
图 17-8 执行 多 线程 的 不 同方 法 


e 交错 式 多 线程 标量 (interleaved multithreaded scalar): 这 是 最 易 实现 的 多 线程 化 办 法 。 通 
过 每 时 钟 周期 切换 线程 ， 使 流水 线 各 段 保持 或 接近 满载 。 硬 件 必须 在 周期 之 间 能 由 一 个 
线程 上 下 文 切 换 到 男 一 线程 上 下 文 。 
。 阻塞 式 多 线程 标量 (blocked multithreaded scalar); 这 种 情况 下 ， 单 线程 连续 执行 ， 直 到 
使 流水 停顿 的 等 待 事件 出 现 ， 此 时 处 理 器 切换 到 另 一 线程 。 
图 17-8c 表示 的 完成 线程 切换 时 间 是 一 个 周期 的 情况 ， 而 图 17-8b 表示 线程 切换 以 零 周期 实 
现 。 在 交错 式 多 线程 情况 中 ， 假 定 了 线程 间 无 数据 相关 性 和 控制 相关 性 ， 这 就 简化 了 流水 线 设 
计 ， 并 人 允许 线程 切换 无 任何 延迟 。 然 而 ， 这 取决 于 特定 的 设计 和 实现 ， 阻 塞 式 多 线程 可 能 会 要 求 
以 一 个 时 钟 周期 来 完成 线程 切换 ， 正 如 图 17-8 所 示 。 若 取 来 的 指令 触发 线程 切换 ， 且 必须 由 流 
水 线 逐 出 ， 就 发 生 这 种 情况 [UNGE03 ] 。 
虽然 交错 式 多 线程 办 法 比 阻塞 式 多 线程 呈现 出 更 好 的 处 理 器 利用 率 ， 但 它 这 样 做 是 以 牺牲 
单线 程 性 能 为 代价 。 多 个 线程 竞争 cache 资源 ， 这 会 使 其 中 某 些 线程 的 cache 缺失 概率 升 高 。 
若 处 理 器 每 周期 能 发 射 多 条 指令 ， 则 有 更 多 并 行 执行 机 会 可 用 。 图 17-8d 至 图 17-8i 说 明了 
几 种 类 型 的 处 理 器 ， 它 们 都 具有 每 周期 发 射 4 条 指令 的 硬件 。 在 所 有 这 些 情 况 中 ， 一 个 周期 仅 能 
同时 发 射 来 自 单个 线程 的 多 条 指令 。 下 面 分 别 予以 说 明 : 
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e 超标 量 (superscalar); 这 是 基本 的 超标 量 ， 无 多 线程 。 直 到 前 不 久 ， 这 还 是 在 处 理 器 内 
提供 并 行 性 的 最 强 有 力 办 法 。 注 意 在 某 些 周期 期 间 ， 不 是 全 部 的 可 用 发 射 槽 都 被 使 用 。 
在 一 些 周 期 ， 少 于 最 大 数 的 指令 被 发 射 ， 这 称 为 水 平 损失 (horizontal loss) 。 在 另 一 些 周 
期 , 无 发 射 槽 可 用 ; 这 些 是 有 指令 却 不 能 被 发 射 的 周期 ， 这 称 为 生 直 损失 (vertical 
loss ) 。 
交错 式 多 线程 超标 量 (interleaved multithreading superscalar): 每 个 周期 期 间 ， 来 自 单一 线 
程 的 尽 可 能 多 的 指令 被 发 射 。 正 如 前 面 所 讨论 过 的 ， 使 用 这 种 技术 可 消除 由 线程 切换 所 
带 来 的 潜在 延迟 。 然 而 ， 任 一 给 定 周期 发 射 的 指令 数 仍 受 限于 给 定 线程 内 所 具有 的 指令 
间 相 关 性 。 
阻塞 式 多 线程 超标 量 (blocked multithreaded superscalar); 再 一 次 ， 任 何 周期 仅 来 自 单个 
线程 的 指令 会 被 发 射 ， 并 使 用 了 阻塞 式 多 线程 。 
超 长 指令 字 (very long instruction word, VLIW): 一 个 VLIW 体系 结构 ， 如 IA -64， 是 将 
多 条 指令 放 在 单个 字 中 。 典 型 地 ， 由 编译 器 构造 VLIW ， 它 把 可 并 行 执行 的 操作 放 在 同一 
字 中 。 在 一 个 简单 的 VLIW 机 器 中 (图 17-8g) ， 如 果 不 能 以 可 并 行 发 射 的 指令 填 满 字 ， 
就 使 用 无 操作 (no-op) 填充 。 
交错 式 多 线程 超 长 指令 字 (interleaved multithreading VLIW): 这 个 办 法 所 提供 的 效能 类 似 
于 交错 式 多 线程 在 超标 量 体 系 结构 上 所 提供 的 效能 。 
阻塞 式 多 线程 超 长 指令 字 (blocked multithreaded VLIW): 这 个 办 法 所 提供 的 效能 类 似 于 
阻塞 式 多 线程 在 超标 量 体 系 结构 上 所 提供 的 效能 。 
17-8 中 所 示 的 最 后 两 种 办 法 允许 多 个 线程 同时 并 行 执行 : 
同时 多 线程 (simultaneous multithreading) : 图 17-8j 表示 一 个 每 次 能 发 射 8 条 指令 的 系统 。 
车 一 个 线程 具有 高 度 的 指令 级 并 行 性 ， 它 可 在 某 些 周期 填 满 水 平权 。 在 男 一 些 周期 ， 来 
自 两 个 或 多 个 线程 的 指令 可 被 发 射 。 若 有 充足 的 活路 线程 ， 每 周期 发 射 最 大 数目 的 指令 
通常 是 可 能 的 ， 这 提供 了 更 高 级 的 效能 。 
片上 多 处 理 器 (chip multiprocessor) 或 多 核 (multicore): 图 17-8k 表示 一 个 芯片 含有 4 个 
处 理 器 ， 其 中 每 个 都 是 一 个 双 发 射 的 超标 量 处 理 器 。 每 个 处 理 器 各 指派 给 一 个 线程 ， 它 
能 每 周期 发 射 来 自 此 线程 的 两 条 指令 。 

比较 图 17-8j 和 图 17-8k， 我 们 看 到 一 个 与 SMT 有 同样 指令 发 射 能 力 的 片上 多 处 理 器 ， 却 不 
能 达到 与 SMT 同等 程度 的 指令 级 并 行 性 。 这 是 因为 片上 多 处 理 器 不 能 隐藏 由 发 射 来 自 其 他 线程 
的 指令 所 导致 的 延迟 。 另 一 方面 ， 片 上 多 处 理 器 应 胜出 有 同样 指令 发 射 能 力 的 超标 量 处 理 器 ， 因 
为 超标 量 处 理 器 的 水 平 损失 将 更 大 。 此 外 ， 片 上 多 处 理 器 上 的 每 个 处 理 器 使 用 多 线程 是 可 行 的 ， 
当今 某 些 机 器 正 是 这 样 做 的 。 


e 基 


17.4.3 示例 系统 

1. Pentium 4 

Pentium 4 的 最 新 型 号 使 用 了 一 种 在 Intel 文档 中 称 为 超 线程 (hyperthreading) 的 多 线程 技术 
[ MARR02 ] Pentium 4 的 方法 实际 上 使 用 了 支持 两 个 线程 的 SMT。 这 样 ， 单 个 多 线程 处 理 器 你 
辑 上 是 两 个 处 理 器 。 

2. IBM Power 5 

用 于 PowerPC 高 端 产品 的 IBM Power 5 芯片 ， 是 将 片上 多 处 理 器 与 SMT 相 结 合 的 产物 
[KALLO4]。 芯 片 具有 两 个 分 立 的 处 理 器 ， 每 个 处 理 器 是 一 个 使 用 SMT 并 发 地 支持 两 个 线程 的 多 
线程 处 理 器 。 有 趣 的 是 ， 设 计 者 对 各 种 替代 方案 进行 了 模拟 ， 发 现 单个 芯片 上 具有 两 个 两 路 的 
SMT 处 理 器 比 单 个 的 四 路 SMT 处 理 器 能 提供 更 优异 的 性 能 。 模 拟 研究 表明 ， 支 持 超出 两 个 线程 
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的 额外 多 线程 化 会 降低 性 能 ， 因 为 来 自 一 个 线程 的 数据 替换 男 一 个 线程 所 需 数据 时 会 导致 cache 
内 容 的 频繁 切换 。 

图 17-9 给 出 Power 5 的 指令 流 图 。 只 是 处 理 器 中 少数 部 件 需要 复制 ， 以 分 立 的 部 件 支 持 分 立 
的 线程 ， 其 中 使 用 了 两 个 程序 计数 器 。 处 理 器 交替 地 在 两 个 线程 间 取 指令 ， 一 次 多 达 8 条 。 取 来 
的 所 有 指令 保存 在 一 个 公用 的 指令 cache， 并 共享 指令 翻译 机 构 ， 此 机 构 进行 指令 部 分 译 码 。 当 
遇 到 一 个 条 件 分 支 指令 时 ， 分 支 预测 机 制 预测 转移 方向 ， 并 且 可 能 计算 出 转移 目标 地 址 。 为 预测 
子 例 程 返回 目标 ， 处 理 器 使 用 了 返回 栈 ， 每 个 线程 一 个 。 
动态 指 
are 


共享 的 
执行 单元 


[TD SS eee aes 


LSUI M 址 转换 ， 速 缓存 
EXU1 | >H 保存 
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a : 
存 器 映射 器 wane 寄存 器 组 
CO 被 两 个 线程 共享 EO 线程 资源 GS 线程 | 资源 


BXU = 分 支 执行 单元 
CRL = 条 件 寄存 器 逻辑 执行 单元 
FPU = 浮 点 执行 单元 
FXU = 定点 执行 单元 
LSU = 装载 /保存 单元 


图 17-9 Power 5 指令 数据 流 
然后 指令 被 送 入 两 个 分 立 的 指令 缓冲 器 。 接 着 ， 基 于 线程 优先 级 ， 选 择 一 组 指令 且 并 行 译 码 。 
指令 流 再 以 程序 的 顺序 通过 寄存 器 换 名 机 构 ， 把 逻辑 寄存 器 映射 到 物理 寄存 器 。Power 5 具有 120 个 
物理 通用 寄存 器 和 120 个 物理 浮 点 寄存 器 。 指 令 然后 被 送 入 发 射 队列 。 发 射 队列 使 用 对 称 多 线程 化 
(symmetric multithreading) 方式 发 射 指令 。 这 意味 着 ， 处 理 器 具有 超标 量 体 系 结构 ， 并 能 并 行 发 身 
来 自 一 个 或 两 个 线程 的 指令 。 流 水 线 结束 处 ,需要 有 分 立 的 线程 资源 来 提交 指令 结果 。 


17.5 集群 


计算 机 系统 设计 的 一 个 重要 而 且 较 新 的 发 展 是 集群 化 (clustering)。 集 群 化 作为 一 种 提供 高 性 
能 和 高 可 用 性 的 方法 ， 是 对 称 多 处 理 器 (SMP) 的 替代 物 ， 并 对 服务 器 应 用 特别 有 吸引 力 。 我 们 将 
集群 系统 (cluster) 定义 成 一 组 完整 的 计算 机 相互 连接 ， 它 们 作为 一 个 统一 的 计算 资源 一 起 工作 ， 
并 能 产生 好 像 是 一 台 机 器 的 假象 。 术 语 “ 完 整 计 算 机 ” (whole computer) 意 指 一 台 计 算 机 离开 集群 
系统 仍 能 执行 自己 的 任务 。 在 文献 中 ， 集 群 系统 中 的 每 台 计 算 机 一 般 称 为 结 点 (node)。 
[BREW97] 列 出 了 集群 化 能 提供 的 4 个 好 处 ， 它 们 也 可 看 成 是 集群 设计 的 要 求 或 目标 : 
o 绝对 的 可 扩展 性 (absolute scalability): 组 建 一 个 大 的 集群 系统 ， 使 它 的 能 力 远 超过 其 至 
最 大 的 独立 计算 机 是 完全 可 能 的 。 一 个 集群 系统 能 有 上 百 甚至 几 千 台 机 器 ， 每 台 机 器 是 
一 个 多 处 理 器 。 
。 增 量 的 可 扩展 性 (incremental scalability); 集群 系统 能 以 这 样 的 方式 来 配置 : 以 少量 增加 
方式 把 新 结 点 添加 到 集群 系统 中 ， 于 是 ， 用 户 开始 只 需要 一 个 适度 规模 的 系统 ， 随 着 需 
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求 的 增长 再 扩展 它 ， 而 无 需 采 用 以 大 系统 替代 原 小 系统 的 主要 升级 方式 。 

高 可 用 性 (high availability): 因为 集群 系统 的 每 个 结 点 都 是 一 台独 立 计算 机 ， 因 此 一 个 
结 点 的 故障 不 意味 着 业务 的 丢失 。 多 数 产 品 中 ， 容 错 是 由 软件 自动 完成 的 。 

优异 的 价格 /性 能 比 (superior price/performance) : 通过 将 商 售 的 构件 组 合 在 一 起 构成 一 
个 集群 系统 ， 其 计算 能 力 等 于 或 大 于 单一 大 型 机 器 ， 而 其 成 本 却 低 得 多 。 


17.5.1 集群 配置 


在 文献 中 ， 集 群 系统 有 几 种 分 类 方式 。 也 许 最 简单 的 分 类 法 是 ， 根 据 集群 系统 中 的 计算 机 是 
否 共享 对 同一 磁盘 的 存 取 来 分 类 。 图 17-10a 表示 了 一 个 两 结 点 的 集群 系统 ， 高 速 链 路 是 两 结 点 
的 唯一 互 连 机 制 ， 它 能 用 于 高 速 消息 交换 ， 以 协调 系统 的 动作 。 此 链 路 可 以 是 与 其 他 非 集群 系统 
计算 机 共享 的 LAN ， 也 可 以 是 专用 的 互 连 设施 。 在 后 一 种 情况 下 ， 集 群 系统 中 的 一 个 或 多 个 计 
算 机 将 有 一 个 到 LAN 或 WAN 的 链 路 ， 这 样 就 提供 了 服务 器 集群 系统 与 远程 客户 系统 之 间 的 连 
接 。 注 意 ， 图 中 每 台 计 算 机 被 描述 为 一 台 多 处 理 器 ， 实 际 上 不 是 必须 如 此 ， 但 这 样 做 会 增强 性 能 
和 可 用 性 。 

在 图 17-10 描述 的 简单 分 类 中 ， 另 一 种 方法 是 共享 磁盘 的 集群 系统 。 这 种 情况 下 ， 通 常 在 结 
点 间 仍 有 一 条 消息 链 路 ; 此 外 ， 还 有 一 个 直接 连接 到 系统 内 多 台 计 算 机 的 磁盘 子 系统 。 图 中 的 公 
共 磁 盘子 系统 是 一 个 RAID 系统 。 使 用 RAID 或 某 种 类 型 的 元 余 磁盘 技术 ， 在 集群 系统 中 是 很 普 
遍 的 ， 这 样 可 使 多 台 计 算 机 所 实现 的 高 可 用 性 不 被 作为 单 故障 点 的 共享 磁盘 所 损害 。 


高 速 消 息 链接 





a) 无 共享 磁盘 的 备用 服务 器 


高 速 消息 链接 





b) 共享 磁盘 


图 17-10 ”集群 配置 


考察 功能 的 可 替换 性 可 得 到 集群 系统 更 清楚 的 分 类 图 谱 。 表 17-2 提供 了 一 个 沿 功能 主线 的 
有 效 分 类 法 ， 下 面 就 对 它 进 行 讨 论 。 
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表 17-2 集群 方法 : 优点 和 缺点 




























集群 方法 说 明 r ma 
S 当主 服务 器 发 生 故 障 时 ， 次 服务 成 本 较 高 ， 因 为 次 服务 器 
器 接管 任务 处 理 对 其 他 处 理 任务 是 不 可 用 的 
降低 了 成 本 ， 因 为 次 服务 
主动 式 辅助 次 服务 器 也 用 于 任务 处 理 es 增加 了 复杂 度 
PWS BA AR. M 因为 大 量 的 拷贝 操作 ， 网 
分 立 的 服务 器 。 | 据 从 主 服务 器 连续 拷贝 到 此 服务 器 | 高" 用 性 络 和 服务 器 开销 大 
服务 器 被 连接 到 同一 组 磁盘 ， 但 Saar p 
eC ee I E 
盘 。 如 果 一 个 服务 器 发 生 故障 ， 它 | 销 ， 因 为 不 需要 拷贝 操作 。 | aron 
的 磁盘 被 其 他 服务 器 接管 
网 络 和 服务 器 开销 较 低 .| ”需要 镇 管理 软件 。 通 常会 
共享 磁盘 的 服务 器 | ”多 个 服务 器 同时 共享 磁盘 访问 | 降低 了 因 磁 盘 故 障 而 导致 的 | 同时 使 用 磁盘 镜像 或 RAID 


停机 风险 技术 


一 种 通用 的 老式 方法 称 为 被 动 式 备用 (passive standby) ， 其 原理 很 简单 ， 一 台 计 算 机 处 理 所 
有 工作 ， 而 另 一 台 计 算 机 不 工作 ， 但 时 刻 准 备 着 在 主 服 务 器 出 故障 时 去 接替 工作 。 为 协调 机 器 动 
作 ，, 活动 的 主 服务 器 要 周期 地 发 送 “ 心 跳 ”( heartbeat) 消息 给 备用 服务 器 。 一 旦 这 些 消息 停止 
到 达 ， 备 用 服务 器 将 认为 主 服务 器 失败 了 ， 并 立即 投入 运行 。 这 种 方法 提高 了 可 用 性 ,但 没有 改 
善 性 能 。 而 且 ， 两 者 之 间 交 换 的 信息 只 是 心跳 信息 ， 并 且 二 者 不 共享 磁盘 ， 即 备用 者 提供 了 功能 
上 的 备份 ， 但 不 能 存 取 主 服务 器 管理 的 数据 库 。 

这 种 被 动 式 备用 通常 不 被 看 成 是 集群 系统 。 术 语 “ 集 群 系统 ”是 专门 用 于 这 样 的 多 个 计算 
机 互 连 的 系统 : 每 个 计算 机 都 是 主动 地 进行 处 理 ， 沿 对 外 维护 了 一 个 单一 系统 映像 。 术 语 “ 主 
动 式 辅助 ” (active secondary) 经 常用 于 指 这 种 配 兽 ， 它 又 分 成 3 种 集群 化 方式 ,分 别 标识 为 : 
分 立 的 服务 器 、 无 共享 和 共享 存储 。 

一 种 集群 化 方式 是 ， 每 个 计算 机 是 带 有 自己 磁盘 的 分 立 的 服务 器 (separate server), ， 计 算 机 之 
间 无 共享 磁盘 〈 见 图 17-10a) ， 这 种 安排 提供 了 高 性 能 以 及 高 可 用 性 。 这 种 情况 下 ， 需 要 某 种 管理 
或 调度 软件 ， 以 将 到 来 的 客户 请 求 指派 给 适当 的 服务 器 ， 而 实现 负载 平衡 和 高 利用 率 。 同 时 要 求 系 
统 具 有 故障 接管 能 力 ， 这 意味 着 一 台 计 算 机 在 执行 应 用 程序 期 间 出 现 故障 ， 另 一 台 计 算 机 能 接 蔡 它 
并 完成 此 应 用 服务 。 因 此 ， 数 据 必 须 在 计算 机 之 间 连 续 不 断 地 被 复制 ， 以 使 每 台 计算 机 都 能 存 取 其 
他 计算 机 的 当前 数据 。 这 种 数据 交换 开销 保证 了 高 可 用 性 ， 却 付出 了 性 能 损失 的 代价 。 

为 减少 通信 开销 ， 现 在 大 多 数 集群 系统 由 连接 到 公共 磁盘 的 服务 器 组 成 〈 见 图 17-10b) 。 这 
种 方法 的 另外 说 法 简称 为 “无 共享 ” (shared nothing) ， 集 群 的 公共 磁盘 划分 成 卷 ， 每 卷 被 单一 
计算 机 所 拥有 。 如 果 某 台 计 算 机 出 了 故障 ， 则 集群 系统 必须 重新 配置 ， 以 使 另外 某 台 计算 机 拥有 
失效 计算 机 的 卷 。 

使 多 台 计算 机 同时 共享 同一 磁盘 也 是 可 能 的 ， 这 称 为 “共享 磁盘 ” (shared disk) 方法 ， 这 
样 每 台 计 算 机 可 存 取 所 有 磁盘 上 的 所 有 卷 。 这 种 方法 要 求 使 用 某 种 类 型 的 锁 机 制 ， 以 保证 数据 
一 次 仅 能 被 一 台 计 算 机 存 取 。 


17.5.2 ”操作 系统 设计 问题 

全 面 发 掘 集群 系统 的 硬件 潜力 ， 要 求 对 单机 的 操作 系统 进行 某 些 增强 。 

1. 故障 管理 (failure management) 

集群 系统 如 何 管理 故障 ， 取 决 于 所 采用 的 集群 化 方法 ( 见 表 17-2 ) 。 通 常 ， 对 待 故障 有 两 种 
方法 : 高 可 用 的 集群 系统 和 容错 集群 系统 。 高 可 用 的 集群 系统 呈现 出 所 有 资源 都 正在 使 用 的 高 
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概率 。 如 果 出 现 像 系 统 停机 或 磁盘 着 丢失 这 样 的 故障 ,那么 正在 进行 的 查询 可 能 丢失 。 如 果 进 行 
重 试 ， 丢 失 的 查询 将 由 集群 系统 中 另 一 台 计 算 机 提供 服务 。 然 而 ， 集 群 操作 系统 并 不 保证 部 分 已 
执行 但 未 完成 事务 的 状态 ， 这 需要 应 用 级 处 理 。 

容错 的 集群 系统 保证 所 有 资源 总 是 可 用 的 。 这 是 通过 使 用 元 余 共 享 磁盘 技术 、 回 退 未 提交 
事务 、 提 交 已 完成 事务 的 机 制 来 实现 的 。 

应 用 程序 和 数据 资源 从 一 台 失 效 计 算 机 切换 到 集群 系统 中 的 另 一 台 计算 机 上 ， 称 为 故障 接 
管 (failover)。 一 旦 故障 被 修复 了 ， 应 用 程序 和 数据 恢复 到 原 计算 机 ， 称 为 故障 退回 〈failback ) 。 
故障 退回 能 自动 进行 ， 但 这 要 求 故障 是 真正 修复 了 ， 并 且 不 会 再 发 生 ; 如 果 不 是 这 样 ， 那 么 自动 
故障 退回 会 造成 随后 各 计算 机 随机 发 生 资源 故障 ， 导 致 性 能 下 降 和 难以 恢复 的 问题 。 

2. 负载 平衡 (load balancing ) 

集群 系统 要 求 一 种 在 可 用 计算 机 之 间 有 效 平 衡 负载 的 能 力 ， 对 增 量 式 扩 展 的 集群 系统 也 要 
求 具 备 此 能 力 。 当 一 台新 计算 机 加 入 到 集群 系统 中 ， 负 载 平衡 机 制 应 该 自动 将 这 人 台 计 算 机 列 人 
调度 应 用 程序 可 使 用 的 资源 。 中 间 件 机 构 需 要 识别 集群 系统 不 同 成 员 上 的 服务 ， 并 可 将 服务 由 
一 个 成 员 迁 移 到 另 一 个 成 员 上 。 

3. 并 行 化 计算 (paralleling computation ) 

某 些 情况 下 ， 集 群 的 有 效 利用 要 求 并 行 执行 来 自 单 个 应 用 的 软件 。 [KAPP00」 对 此 问题 列 
出 了 三 种 通常 方法 : 

© 并 行 化 编译 器 ( parallelizing compiler) : 并 行 化 编译 器 在 编译 时 确定 应 用 的 哪些 部 分 可 并 
行 执行 。 然 后 ， 将 它们 离 析出 来 指派 给 集群 中 不 同 的 计算 机 。 性 能 取决 于 问题 的 性 质 和 
编译 器 设计 得 是 否 恰当 。 
并 行 式 应 用 (parallelized application) : 在 这 种 方法 中 ， 程 序 员 从 一 开始 就 按照 程序 在 集群 
上 运行 的 设想 来 编写 程序 ， 并 使 用 消息 传递 方式 在 各 结 点 间 传 送 所 要 求 的 数据 。 这 对 于 
程序 员 来 说 ， 负 担 不 轻 ; 对 于 某 些 应 用 来 说 ， 却 是 利用 集群 能 力 的 最 好 办 法 。 
参数 式 计算 (parametric computing): 如 果 应 用 的 实质 是 一 个 算法 或 程序 的 多 次 执行 ， 每 
次 有 一 组 不 同 的 起 始 条 件 或 参数 ， 那 么 可 以 使 用 这 种 方法 。 一 个 典型 的 例子 是 模型 模拟 ， 
它 将 多 次 运行 不 同 的 模拟 方案 ， 然 后 再 对 结果 进行 分 析 。 为 有 效 地 使 用 参数 式 计算 方 法 ， 
需要 使 用 参数 处 理工 具 软 件 以 便 有 序 地 组 织 、 运 行 和 管理 作业 。 


17.5.3 ”集群 计算 机 体系 结构 


图 17-11 给 出 一 个 典型 的 集群 体系 结构 。 各 个 计算 机 通过 高 速 LAN 或 开关 硬件 互 连 ， 每 个 计 
算 机 都 能 独立 运行 。 各 计算 机 都 安装 中 间 件 (middleware) 软件 层 ， 以 允许 集群 操作 。 集 群 的 中 
间 件 对 用 户 提供 了 一 个 统一 的 系统 映像 ， 称 为 单一 系统 映像 (single-system image); 它 还 通过 负 
载 平衡 和 响应 个 别 部 件 故 障 的 方式 ， 来 负责 提供 高 可 用 性 。[HWAN99] 列 出 如 下 作为 集群 中 间 
件 的 服务 和 功能 要 求 : 
e 单一 入 口 点 (single entry point): 用 户 登 录 到 集群 上 而 不 是 登录 到 个 别 计算 机 上 。 
o 单一 文件 层次 (single file hierarchy): 用 户 看 到 的 是 ， 同 一 根 目录 下 的 单一 文件 目录 层次 
体系 。 
o 单一 控制 点 (single control point); 默认 的 工作 站 用 于 整个 集群 的 管理 和 控制 。 
。 单一 虚拟 网 络 ( single virtual networking) : 尽管 实际 的 集群 配置 可 能 由 多 个 互 连 的 网 络 组 
成 , 但 任 一 结 点 都 能 访问 集群 中 任何 其 他 结 点 。 这 形成 单一 虚拟 网 络 的 操作 。 
o 单一 存储 空间 (single memory space); 分 布 式 共享 存储 器 允许 程序 共享 变量 。 
单一 作业 管理 系统 (single job-management system): 在 集群 作业 调度 程序 管理 下 ， 用 户 提 
交 作 业 无 需 指定 执行 此 作业 的 宿主 计算 机 。 
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e 单一 用 户 接口 (single user interface); 一 个 公共 图 形 接口 支持 所 有 用 户 ， 不 管用 户 由 哪 台 
工作 站 进入 集群 。 

e 单一 1/O 空间 (single I/O space); 任 一 结 点 都 能 远程 访问 任何 VO 外 围 或 磁盘 设备 ， 而 
无 需 知 晓 它 们 的 物理 位 置 。 

e 单一 进程 空间 (single process space); 使 用 一 致 的 进程 标识 方式 ， 任 何 结 点 上 的 进程 都 能 
在 远程 结 点 上 生成 另 一 进程 并 与 之 通信 。 

e 检查 点 (checkpointing): 这 个 功能 周期 性 地 保存 进程 状态 和 中 间 计 算 结 果 ， 以 便 在 故障 
修复 之 后 重新 运算 。 

o 进程 迁移 (process migration): 这 个 功能 可 使 负载 平衡 。 

上 述 的 最 后 4 项 用 于 提高 集群 的 可 用 性 。 其 余 所 有 项 都 涉及 提供 单一 系统 映像 。 

再 返回 到 图 17-11 ， 集 群 还 要 包括 软件 工具 ， 以 使 并 行程 序 能 有 效 地 运行 。 


并 行 应 用 程序 
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高 速 网 络 /交换 
图 17-11 集群 计算 机 体系 结构 [BUYY99a] 


17.5.4 刀片 服务 器 


实现 集群 的 一 种 常用 方式 是 刀片 服务 器 。 刀 片 服务 器 是 一 种 服务 器 体系 结构 ， 它 把 多 个 服 
务 器 模块 (TI) 装 入 到 单个 机 箱 中 。 刀 片 
服务 器 广泛 应 用 于 数据 中 心 ， 以 便 节 省 空间 ， 
并 提高 系统 管理 效率 。 刀 片 服务 器 可 能 采用 a 
塔 式 或 机 架 式 安装 ， 无 论 哪 一 种 ， 电 源 都 是 zae TA 
由 机 箱 统 一 提供 。 机 箱 内 每 个 “刀片 ”包含 NX 100Gb/s -一 一 
它 自己 的 处 理 器 、 内 存 和 硬盘 。 en i 
刀片 服务 器 的 一 个 应 用 例子 如 图 17-12 所 一 
示 ， 该 例子 来 源 于 [NOWE07 ] 。 大 型 数据 中 10Gb/s 
心 通常 装备 着 大 量 的 刀片 服务 器 ， 其 发 展 趋 ，& 
势 是 给 各 个 服务 器 装配 10Gb/s 的 网 络 接口 ， 
以 便 处 理 这 些 服务 器 上 大 规模 多 媒体 数据 交 
换 。 这 样 的 配置 给 连接 这 些 众多 服务 器 的 以 A 
太 网 交换 机 带 来 了 巨大 的 压力 。100Gb/s 的 刀片 计算 机 
带宽 能 提供 处 理 高 速 增长 的 数据 交换 要 求 的 图 17-12 ”大 规模 刀片 服务 器 
能 力 。 于 是 ，100Gb/s 的 以 太 网 交换 机 就 被 安 站 点 的 100Gb/s 以 太 网 配置 示例 


40Gb/s .| 
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装 到 数据 中 心 的 上 行 交 换 链 路 (switch uplink) 上 ， 以 提供 楼 宇 之 间 、 园 区 之 间 以 及 广 域 的 企业 
网 络 连接 。 


17.5.5 S25 SMP 的 对 比 


集群 系统 和 对 称 多 处 理 器 都 提供 了 一 种 使 用 多 个 处 理 器 来 支持 高 需求 应 用 的 配置 ， 二 者 都 
已 有 商业 化 产品 可 用 ， 虽 然 SMP 产品 出 现 要 早 得 多 。 

SMP 方法 的 主要 优势 在 于 ，SMP 比 集群 系统 更 容易 配置 和 管理 。SMP 更 接近 原来 的 单 处 理 
器 模型 ， 而 几乎 所 有 的 应 用 都 是 以 此 模型 来 编写 的 。 从 单 处 理 器 到 SMP 主要 的 变化 在 于 调度 程 
序 的 功能 增强 。SMP 的 另 一 优点 是 ， 与 具有 可 比 性 的 集群 系统 相 比 ，SMP 占用 较 少 的 物理 空间 ， 
并 且 耗 电 较 少 。 另 一 重要 优点 是 ，SMP 产品 已 很 好 地 建立 起 来 了 ， 并 且 很 稳定 。 

然而 ， 经 过 长 时 间 的 竞争 后 ， 集 群 系统 方法 的 优势 将 使 它 占领 高 性 能 服务 器 市 场 。 在 增 量 和 
绝对 可 扩展 性 方面 ， 集 群 系统 的 优势 是 无 可 匹敌 的 。 同 时 ， 在 可 用 性 方面 ， 集 群 系统 也 是 大 大 强 
于 SMP 的 ， 因 为 集群 系统 中 的 所 有 部 件 都 能 很 容易 地 做 到 高 元 余 度 。 


17.6 ” 非 均匀 存储 器 访问 

以 商 售 产品 形式 提供 多 处 理 器 系统 的 两 种 通常 方法 是 SMP 和 集群 系统 。 近 年 来 ， 一 种 被 称 
为 非 均 匀 存 储 器 访问 (NUMA) 的 方法 已 成 为 研究 的 热点 ， 并 且 NUMA 商业 产品 最 近 也 已 问世 。 

开始 介绍 之 前 ， 先 定义 经 常 出 现在 NUMA 文档 中 的 一 些 术 语 。 

。 均匀 存储 器 访问 (uniform memory access, UMA); 所 有 处 理 器 都 可 使 用 装载 和 保存 指令 
存 取 主 存 的 所 有 部 分 。 一 个 处 理 器 对 所 有 存储 区 域 的 访问 时 间 是 相同 的 ， 不 同 处 理 器 
所 进行 的 存储 器 访问 时 间 也 是 相同 的 。17.2 节 和 17.3 节 所 讨论 的 SMP 组 织 就 是 一 
种 UMA。 
非 均匀 存储 器 访问 (nonuniform memory access, NUMA): 所 有 处 理 器 使 用 装载 和 保存 指 
令 能 访问 所 有 主 存 部 分 。 根 据 正 被 访问 的 存储 器 区 域 .一 个 处 理 器 所 用 的 存储 器 访问 时 
间 是 不 同 的 。 这 种 情况 对 所 有 处 理 器 也 是 真 的 ; 然而 ， 哪 个 区 域 快 些 ， 哪 个 区 域 慢 些 ， 
对 不 同 处 理 器 是 不 同 的 。 
cache 一 致 的 NUMA (cache-coherent NUMA ，CC-NUMA ) : 在 各 处 理 器 的 cache 之 间 有 维 
护 cache 一 致 性 机 制 的 NUMA 系统 。 

一 个 无 cache 一 致 性 维护 的 NUMA 系统 或 多 或 少 等 同 于 一 个 集群 系统 。 令 人 关注 的 商业 产品 
是 CC-NUMA 系统 ， 它 与 SMP 和 集群 系统 有 着 明显 区 别 。 通 常 但 不 总 是 ， 这 样 的 系统 在 商业 文档 
中 实际 被 称 为 CC-NUMA 系统 。 本 节 也 仅 关注 CC-NUMA 系统 。 


17.6.1 动机 


在 SMP 系统 中 ， 可 以 使 用 的 处 理 器 数目 是 有 实际 限制 的 。 有 效 的 cache 策略 能 减少 任 一 处 理 
器 与 主 存 之 间 的 总 线 流 通 量 。 随 着 处 理 器 数目 的 增长 ， 这 个 总 线 流 通 量 也 增长 。 还 有 ， 总 线 被 用 
于 传递 cache 一 致 性 信号 ， 进 一 步 增加 了 总 线 的 负担 。 到 某 一 点 ， 总 线 变 成 一 个 性 能 瓶颈 。 人 性 能 
的 降低 限制 了 SMP 中 可 配置 的 处 理 器 数目 大 致 在 16 ~64 之 间 。 例 如 ，Silicon Graphics 公司 的 
Power Challenge SMP 被 限制 为 单一 系统 中 有 64 个 R10000 处 理 器 ; 超过 这 个 数目 性 能 将 显著 降 
iko 

SMP 中 的 处 理 器 数目 限制 也 是 开发 集群 系统 的 一 个 推动 因素 。 然 而 ， 集 群 系统 中 是 每 个 结 
点 有 自己 的 私有 主 存 ; 应 用 程序 看 不 到 大 的 全 局 存储 器 。 实 际 上 ， 集 群 以 软件 而 不 是 硬件 维护 一 
致 性 。 这 种 存储 器 粒度 影响 着 性 能 。 为 实现 最 大 性 能 ， 必 须 为 这 种 环境 专门 定制 软件 。 一 种 达到 
大 规模 多 处 理 而 又 保持 SMP 风格 的 方法 是 NUMA。 例 如 ，Silicon Graphics 公司 的 Origin NIUMA 系 
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统 被 设计 成 能 支持 多 达 1024 个 MIPS R10000 处 理 器 [ WHIT97], Sequent NUMA-Q 系统 被 设计 成 
支持 多 达 252 个 Pentium 处理 器 [ LOVE96 | 。 

NUMA 的 目标 是 维护 一 个 透明 的 、 系 统 范围 的 存储 器 ， 并 准许 有 多 个 多 处 理 器 结 点 ， 每 个 结 
点 有 自己 的 总 线 或 其 他 内 部 互 连 系统 。 


17.6.2 组织 


图 17-13 描述 了 一 种 典型 的 CC-NUMA 组 织 。 这 里 有 多 个 独立 的 结 点 ， 每 个 结 点 实际 上 是 一 
个 SMP 组 织 。 于 是 ， 每 个 结 点 有 多 个 处 理 器 和 主 存 ， 每 个 处 理 器 有 自己 的 LI 和 L2 cache。 结 点 
是 整个 CC-NUMA 组 织 的 基本 构造 块 ， 如 每 个 Origin 结 点 包括 两 个 MIPS R10000 处 理 器 ， 又 如 每 
个 Sequent NUMA-Q 结 点 包括 4 个 Pentium 开 处 理 器 。 结 点 通过 某 种 通信 设施 互 连 ， 这 些 设施 可 
以 是 开关 机 构 、 环 或 其 他 某 种 网 络 设施 。 








图 17-13 CC-NUMA 组 织 


CC-NUMA 系统 内 的 每 个 结 点 都 包含 某 些 主 存 。 然 而 ， 从 处 理 器 的 角度 看 ， 这 里 只 有 每 一 位 
置 都 具有 唯一 系统 范围 地 址 的 单一 可 寻 址 的 存储 器 。 当 一 个 处 理 器 启动 一 个 存储 器 访问 时 ， 如 
果 所 请 求 的 存储 位 置 不 在 此 处 理 器 的 cache 中 ， 那么 L2 cache 启动 一 个 取 操 作 。 如 果 所 请 求 的 行 
在 主 存 的 本 地 部 分 中 ,经 由 本 地 总 线 把 此 行 取 来 。 如 果 所 请 求 的 行 在 远程 的 主 存 区 域 中 ， 那 么 一 
个 请 求 会 由 cache 自动 发 出 ， 以 便 通 过 互联 网 络 从 远 端 获取 该 行 ， 然 后 将 该 行 放 到 内 部 总 线 上 ， 
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并 且 由 发 送 请 求 的 cache 从 内 部 总 线 上 读 取 。 所 有 这 些 动作 是 自动 进行 的 ， 对 处 理 器 及 其 cache 
是 透明 的 。 

在 这 种 配置 中 ，cache 一 致 性 是 主要 要 考虑 的 问题 。 虽 然 实现 在 细节 上 有 所 不 同 ， 但 一 般 情 
况 下 我 们 可 认为 每 个 结 点 必须 维护 某 种 类 型 的 目录 ， 它 给 出 各 存储 器 部 分 的 位 置 指示 和 cache AR 
态 信 息 。 为 看 清 这 种 策略 如 何 起 作用 ， 我 们 给 出 一 个 取 自 [PFIS98] 的 例子 。 假 设 ， 结 点 2 上 的 
处 理 器 3 (P2 -3) 要 求 访问 存储 器 位 置 798 ， 而 此 位 置 在 结 点 1 的 存储 器 内 ， 那 么 会 发 生 如 下 序 
列 的 操作 : 

(1) P2-3 在 结 点 2 的 监听 总 线 发 出 一 个 对 位 置 798 的 读 请 求 。 

(2) 结 点 2 上 的 目录 看 见 这 个 请 求 . 并 识别 出 此 位 置 在 结 点 1 中 。 

(3) 结 点 2 的 目录 把 一 个 请 求 发 送 到 结 点 1。 结 点 1 的 目录 收 到 此 请 求 。 

(4) 结 点 1 的 目录 ， 起 着 P2-3 代理 的 作用 ， 请 求 读 取 798 的 内 容 ， 就 像 它 是 一 个 处 理 器 
— FE. 

(5) 结 点 1 的 主 存 响应 此 请 求 ， 将 所 要 的 数据 放 到 总 线 上 。 

(6) 结 点 1 的 目录 由 总 线 读 取 数 据 。 

(7) 数据 被 传 回 到 结 点 2 的 目录 。 

(8) 结 点 2 的 目录 将 数据 放 回 到 总 线 ， 它 起 着 代理 保存 此 数据 的 原 存 储 器 的 作用 。 

(9) 数据 被 读 取 并 放 和 人 P2-3 的 cache 中 ， 然 后 递交 给 P2-3。 

上 述 顺 序 说 明了 如 何 由 远程 存储 器 读数 据 。 它 使 用 了 硬件 机 制 ， 从 而 使 事务 过 程 对 处 理 器 
是 透明 的 。 在 这 种 机 制 的 背后 ， 需 要 有 某 种 类 型 的 cache 一 致 性 协议 。 各 种 系统 具体 如 何 实现 
cache 一 致 性 协议 是 不 同 的 。 这 里 我 们 只 进行 简要 的 一 般 性 讨论 。 首 先 ， 作 为 上 述 序列 操作 的 一 
部 分 ， 结 点 1 的 目录 应 保持 一 个 记录 ， 记 录 着 某 些 远程 cache 保存 着 位 置 798 所 在 的 行 。 其 次 ， 
需要 一 种 协同 操作 的 协议 来 处 理 可 能 发 生 的 修改 。 例 如 ， 一 个 cache 中 发 生 了 修改 ， 这 个 事实 能 
广播 到 其 他 cache。 各 个 结 点 的 目录 收 到 这 一 广播 后 ， 确 定 本 结 点 的 各 局 部 cache 中 是 否 有 此 行 
的 副本 ， 如 果 有 ， 就 放弃 它 。 此 修改 的 实际 存储 位 置 所 在 的 结 点 收 到 此 广播 通知 后 ， 该 结 点 目录 
维护 的 一 个 记录 项 指示 此 存储 器 行 已 无 效 ， 并 一 直 保 持 下 去 ， 直 到 回 写 发 生 。 如 果 任 何其 他 处 理 
器 (本 地 或 远程 的 ) 请 求 此 无 效 行 ， 则 本 地 目录 必须 强迫 发 生 一 个 回 写 过 程 ， 修 改 存储 器 之 后 ， 
再 提供 此 数据 。 


17.6.3 NUMA 的 优 缺 点 


CC-NUMA 系统 的 主要 优点 是 ， 它 能 在 比 SMP 更 高 的 应 用 级 别 上 提供 有 效 性 能 ， 而 不 要 求 软 
件 进行 大 的 修改 。 由 于 有 多 个 NUMA 结 点 ， 因 此 任何 个 别 结 点 上 的 总 线 流 通 量 被 限制 到 总 线 能 
处 理 的 负载 程度 上 。 然 而 ， 如 果 多 数 存储 器 访问 是 对 远程 结 点 的 ， 性 能 就 开始 变 差 。 有 两 个 理由 
可 相信 这 种 性 能 变 差 可 以 避免 。 第 一 ，Ll1 和 L2 cache 的 使 用 被 设计 成 减少 所 有 的 存储 器 访问 ， 
包括 远程 的 访问 。 如 果 大 多 数 的 软件 都 有 好 的 时 间 局 部 性 ， 则 远程 存储 器 访问 应 该 不 会 过 多 。 第 
二 ， 如 果 使 用 了 虚拟 存储 器 ， 并 且 软件 有 好 的 空间 局 部 性 ， 则 应 用 所 需 的 数据 将 驻 留 在 经 常 使 用 
的 有 限 几 页 上 ; 那么 ， 这 些 页 可 以 初始 装 人 到 运行 应 用 程序 所 在 结 点 的 本 地 存储 器 上 。Sequent 
研究 人 员 报 告 ， 这 种 空间 局 部 性 出 现在 代表 性 应 用 中 [LOVE96]。 最 后 ， 通 过 在 操作 系统 中 包 
括 页 移植 机 制 ， 能 增强 虚拟 存储 器 的 能 力 ， 这 种 机 制 将 虚拟 存储 页 迁移 到 频繁 使 用 此 页 的 结 点 
Eo Silicon Graphics 公司 的 设计 人 员 报 告 了 这 种 方法 的 成 功 应 用 [WHIT97 J 。 

虽然 远程 访问 导致 的 性 能 下 降 可 通过 上 述 方法 弥补 , 但 CC-NUMA 方法 也 还 是 有 缺点 ， 文 献 
[PFIS98] 中 详细 讨论 了 其 中 两 点 。 第 一 点 ，CC-NUMA 不 像 SMP 那样 透明 ， 操 作 系统 和 应 用 由 
SMP 移植 到 CC -NUMA 系统 上 ， 将 要 求 软件 做 些 改变 。 这 包括 上 面 已 提 到 过 的 页 分 配 、 进 程 分 
配 和 由 操作 系统 完成 的 负载 平衡 。 第 二 点 与 可 用 性 有 关 ， 这 是 一 个 相当 复杂 的 问题 ， 并 取决 于 
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CC-NUMA 系统 的 确切 实现 。 有 兴趣 的 读者 请 参阅 【PFIS98 ] 。 


17.7 “向量 计算 


尽管 通用 的 大 中 型 计算 机 仍 在 持续 地 改进 ， 然 而 应 用 软件 也 在 持续 发 展 ， 
有 些 已 超出 当代 大 中 型 计算 机 的 能 力 范 围 。 包 括 像 空 气动 力学 、 地 震 学 、 气 
象 学 、 原 子 物理 、 核 物理 和 离子 物理 等 这 类 学 科 要 求 计 算 机 解决 这 些 物 理 过 | 向 量 处 理 器 模拟 器 
程 中 的 数学 计算 问题 。 

一 般 而 言 ， 这 些 问 题 是 以 要 求 高 精度 和 对 大 数据 阵列 重复 完成 浮 点 算术 操作 为 特征 的 ， 这 
些 问题 的 大 多 数 都 属于 连续 场 模拟 (continuous-field simulation) 范畴 。 从 本 质 上 讲 ， 一 个 物理 现 
象 能 用 三 维 的 表面 或 层 来 描述 (如 邻近 火箭 的 空气 流 ) 。 这 个 表面 可 用 点 的 网 格 来 近似 。 表 面 上 
每 一 点 的 物理 行为 可 用 一 组 微分 方程 来 定义 。 方 程式 用 值 和 系数 的 阵列 来 表示 ， 并 且 方 程式 的 
解 涉 及 对 数据 阵列 的 重复 算术 运算 。 

为 解决 这 类 问题 研制 出 了 超级 计算 机 ， 这 类 机 器 一 般 都 能 每 秒 钟 完 成 上 亿 次 计算 。 可 做 个 
对 比 ， 大 中 型 计算 机 是 为 多 道 程序 和 密集 的 1/0 操作 而 设计 的 ， 而 超级 计算 机 是 面向 刚才 介绍 的 
数值 计算 问题 。 

超级 计算 机 应 用 有 限 ， 并 且 由 于 它们 价格 昂贵 ， 市 场 也 较 小 ， 主 要 是 一 些 研究 中 心 和 某 些 附 
带 科学 或 工程 研发 任务 的 政府 部 门 使 用 这 类 机 器 。 与 计算 机 技术 的 其 他 领域 一 样 ， 对 超级 计算 
机 性 能 也 有 一 个 持续 增长 的 需求 。 于 是 ， 超 级 计算 机 的 技术 和 性 能 也 要 持续 发 展 。 

还 有 男 一 类 系统 设计 成 用 来 解决 向 量 计算 需求 ， 被 称 为 阵列 处 理 器 (array processor), AR 
然 ， 超 级 计算 机 是 为 向 量 计算 而 优化 的 ， 但 它 是 一 个 通用 计算 机 ， 它 也 能 处 理 标 量 计算 和 一 般 数 
据 处 理 任 务 。 而 阵列 处 理 器 不 包括 标量 处 理 ; 它们 被 大 中 型 计算 机 和 小 型 计算 机 用 户 作 为 外 围 
设备 配置 到 系统 中 ， 只 运行 程序 中 的 向 量 计算 部 分 。 


17.7.1 向 量 计算 的 方法 


超级 计算 机 或 阵列 处 理 器 设计 的 关键 ， 是 要 认识 到 它们 的 主要 任务 是 完成 浮 点 数 数组 或 向 
量 的 算术 运算 。 在 通用 计算 机 中 ， 这 将 要 求 迭 代 计算 
数组 的 每 一 元 素 。 例 如 ， 考 虑 两 个 向 量 (一 维 数组 ) 
A 和 B， 把 它们 相 加 结果 存 于 C。 在 图 17-14 所 示 的 例 
子 中 ， 这 将 要 求 6 次 分 别 的 相 加 。 我 们 能 加 速 这 个 计 
算 吗 ? 答案 是 要 引入 某 种 形式 的 并 行 性 。 

已 有 几 种 方法 能 实现 向 量 计 算 的 并 行 性 。 我 们 用 
一 个 例子 来 说 明 。 考 虑 向 量 乘法 C=4xB， 这 里 的 4、 
B 和 C 都 是 VxN 和 矩阵 。C 每 个 元 素 的 计算 公式 是 : 图 17-14 向量 加 示例 


TE >, ai, X b, 

这 里 4、B 和 C 分 别 有 aj, 6,, Alc, 70K. Al 17-15a 表示 的 是 能 在 一 般 标量 处 理 器 上 运行 
的 ， 完 成 这 个 计算 的 FORTRAN 程序 。 

改进 性 能 的 一 种 方法 称 为 向 量 处 理 (vector processing) 。 这 里 假定 对 一 维 的 数据 向 量 操作 是 
准许 的 。 图 17-15b 是 一 个 带 有 新 指令 格式 的 FORTRAN 程序 ， 新 指令 能 用 来 进行 向 量 计算 ， 其 中 
(J=1, N) 表示 在 给 定 间 隔 中 的 所 有 J 下 标 上 的 运算 将 作为 单一 操作 来 执行 。 下 面 简要 说 明 它 
是 如 何 实现 的 。 

图 17-15b 程序 指出 ,第 i 行 所 有 元 素 是 并 行 计算 的 。 行 中 的 每 个 元 素 是 一 个 累加 ,但 此 累加 
(经 由 K) 是 串 行 而 不 是 并 行 完成 的 。 尽 管 如 此 ， 这 个 算法 仅 需要 V 次 向 量 乘法 ， 而 与 之 相应 的 











标量 算法 却 需要 N 次 标量 乘法 。 

另 一 方法 是 并 行 处 理 (parallel processing), H 
图 17-150 说 明 。 这 种 方法 假定 有 N 个 独立 的 处 理 器 
能 并 行 工作 。 为 有 效 利 用 处 理 器 ， 我 们 必须 以 某 种 
方式 将 计算 任务 分 发 到 各 处 理 器 。 这 里 使 用 了 两 个 
原 语 ，FORK n 原 语 引发 一 个 独立 的 进程 ， 并 将 由 位 
置 n 启动。 同时 ， 原 进程 继续 执行 FORK 之 后 的 指 
令 。 每 执行 一 次 FORK 就 产生 一 个 新 进程 。JOIN 原 
语 基 本 上 是 FORK 的 反 。JOIN N 语句 使 NN 个 独立 进 
程 合 并 成 一 个 进程 ， 并 继续 执行 JOIN 之 后 的 指令 。 
操作 系统 必须 调整 好 这 个 合并 ， 以 使 执行 不 再 继续 ， 
直到 所 有 N 个 进程 都 已 到 达 此 JOIN 指令 。 

图 17-15c 中 的 程序 是 模仿 向 量 处 理 程序 的 行为 
而 写成 的 。 在 并 行 处 理 程序 中 ,，C 的 每 一 列 是 由 一 
个 分 立 的 进程 来 计算 ， TE, C 的 给 定 行 中 各 元 素 
是 并 行 计 算 的 。 

前 面 的 讨论 以 逻辑 的 或 结构 的 术语 描述 了 向 量 
计算 的 方法 。 现 在 ， 让 我 们 转 而 考虑 能 用 来 实现 这 
些 方法 的 处 理 器 组 织 类 型 。 目 前 已 有 ， 并 在 继续 推 
出 各 种 组 成 方式 ， 以 下 面 三 种 主要 类 型 为 代表 : 

。 流水 线 式 ALU。 

e 并 行 ALU, 

© 并 行 处 理 器 。 
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DO1001=1,N 
DO 100]=1,N 
CD=00 ， 


DO 100K=1,N 


CUD=CGDHACLW+B(GKD 
CONTINUE 





a) 标量 处 理 


~ DO 1001=1,N 

~ CLI)=0,00=1,N) 

DO100K=1N 

CD PR K) +B, DJG=LN) 





b) 向 量 处 理 





c) 并 行 处 理 


图 17-15 年 阵 相 乘 (C =A xB) 


图 17-16 描述 了 前 两 类 。 在 第 12 章 已 讨论 过 流水 线 ， 这 里 把 流水 的 概念 扩展 到 了 ALU 操作 。 
因为 浮 点 运算 是 相当 复杂 的 ， 所 以 这 就 有 将 一 个 浮 点 运算 分 解 成 几 段 的 机 会 。 这 样 不 同 的 段 能 


并 发 地 对 不 同 数据 组 操作 。 这 由 图 17-16a 来 说 明 。 
浮 点 加 法 分 成 4 段 (参见 图 9-22): 比较 阶 值 、 有 
效 值 移 位 、 有 效 值 相 加 和 规格 化 。 数 据 向 量 顺序 提 
交 给 第 1 段 。 随 着 处 理 的 进行 ,4 组 不 同 的 数据 将 
在 流水 线 中 被 并 发 操作 。 

这 种 组 织 方式 适合 于 向 量 处 理 ， 这 一 点 应 是 很 
明显 的 。 为 此 ， 可 考虑 第 12 章 所 描述 的 指令 流水 
线 。 处 理 器 重复 地 通过 取 指 和 执行 周期 。 在 无 转移 
时 ， 处 理 器 从 顺序 位 置 连续 地 取 指 令 。 于 是 流水 线 
可 以 保持 满载 ， 从 而 实现 了 时 间 的 节省 。 类 似 地 ， 
若 由 顺序 位 置 向 流水 线 式 ALU 提供 数据 流 ， 它 也 
将 节省 时 间 。 一 个 单个 的 、 孤 立 的 浮 点 操作 是 不 会 
被 流水 线 加 速 的 。 当 一 个 向 量 操 作 数 提交 给 ALU 
时 就 能 实现 加 速 。 控 制 器 轮流 地 让 数据 通过 ALU 
直到 整个 向 量 被 处 理 。 

如 果 向 量 元 素 是 保存 在 寄存 器 中 而 不 是 存储 器 
中 ,那么 流水 线 操作 能 进一步 增强 。 实 际 上 ， 图 
17-16a 就 已 暗示 了 这 一 点 。 向 量 操 作 数 的 各 元 素 作 


输入 寄存 器 流水 线 式 ALU 


输出 寄存 器 





a) 流 水 线 式 ALU 
输入 寄存 器 





b) 并 行 ALU 


图 17-16 向 量 计算 的 方法 
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为 一 个 块 来 装 人 一 个 向 量 寄存 器 (vector register) ， 结 果 也 被 放 入 一 个 向 量 寄存 器 ， 向 量 寄存 器 
只 不 过 是 同类 型 寄存 器 组 成 的 体 (bank) 。 于 是 大 多 数 操作 仅 涉 及 寄存 器 的 使 用 ， 只 是 装载 和 保 
存 操作 及 向 量 运 算 的 开始 和 结尾 要 求 访 问 存储 器 。 

图 17-17 所 说 明 的 机 制 可 被 看 作 是 一 个 运算 内 的 流水 化 (pipelining within an operation), ， 即 
我 们 有 一 个 单一 的 算术 运算 (如 C =4+B) ， 这 个 运算 将 被 实施 到 向 量 操作 数 ， 并 且 流 水 化 允许 
多 个 向 量 元 素 被 并 行 处 理 。 这 个 机 制 能 被 增强 到 跨越 运算 的 流水 化 (pipelining across operations) 。 
在 后 一 情况 中 ， 有 一 个 向 量 算术 运算 序列 ， 并 且 指 令 流 水 线 用 于 加 速 处 理 。 这 种 跨越 运算 的 流水 
化 的 一 种 方法 是 所 谓 的 链接 法 (chaining), Cray 超级 计算 机 采用 了 这 一 方法 。 链 接 法 的 基本 规 
We: 一 个 向 量 运算 可 立即 开始 ， 只 要 其 操作 数 向 量 的 第 一 个 元 素 是 可 用 的 ， 并 且 功 能 单元 
(如 加 法 器 、 减 法 器 、 乘 法 器 、 除 法 器 ) 是 空闲 的 。 关 键 是 ， 链 接 使 一 个 功能 单元 发 送出 的 结 
果 ， 将 立即 被 送 入 另 一 个 功能 单元 。 如 果 使 用 向 量 寄存 器 ， 中 间 结 果 没 必要 存 人 存储 器 ， 甚 至 在 
产生 它们 的 向 量 运 算 完 成 前 就 可 被 使 用 。 






a) 流 水 线 式 ALU 


b) 4 个 并 行 ALU 


图 17-17 浮 点 运算 的 流水 处 理 


例如 ， 当 计算 C=(s x4) +B 时， 这 里 的 4、B、C 是 向 量 而 s 是 标量 ，Cray 可 一 次 执行 三 条 
指令 。 装 载 (load) 指令 取 来 的 元 素 ， 可 立即 进入 一 个 流水 线 式 的 乘法 器 ， 积 被 送 入 流水 线 式 的 
加 法 器 ;只 要 加 法 器 一 完成 ， 其 和 立即 被 放 人 向 量 寄存 器 : 

(1) 向 量 装载 A 一 向 量 寄存 器 (VRI); 

(2) 向 量 装载 B—VR2; 

(3) 向 量 乘法 s x VRI-VR31; 

(4) 向 量 加 法 VR3 + VR2—-VR4; 

(5) 向 量 保存 VR4—C, 
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指令 2 和 指令 3 能 被 链接 (流水 化 ) ， 因 为 它们 涉及 不 同 的 存储 器 位 置 和 寄存 器 。 指 令 4 需要 指 
令 2 和 指令 3 的 结果 ， 但 它 完 全 能 与 它们 链接 。 只 要 向 量 寄存 器 2 和 寄存 器 3 的 最 初 元 素 是 可 用 
的 ， 指 令 4 的 操作 即 可 开始 。 

实现 向 量 处 理 的 另 一 方式 是 在 一 个 单一 处 理 器 中 使 用 多 个 ALU， 在 单一 控制 器 控制 下 并 行 
操作 。 在 这 种 情况 下 ， 控 制 器 指派 数据 到 各 个 ALU， 使 它们 能 并 行 工作 。 每 个 并 行 的 ALU 亦 可 
使 用 流水 线 。 这 由 图 17-17b 说 明 ， 此 例 表 示 了 4 个 ALU 并 行 操作 的 情况 。 

正如 流水 线 式 组 织 一 样 ， 并 行 的 ALU 组 织 适 于 向 量 处 理 。 控 制 器 以 一 种 轮转 方式 指派 向 量 
元 素 到 各 ALU， 直 到 所 有 元 素 都 被 处 理 。 这 种 组 织 类 型 要 比 单一 ALU 流水 线 更 复杂 。 

最 后 ， 向 量 处 理 也 能 使 用 多 个 并 行 的 处 理 器 来 实现 。 这 种 情况 下 ， 必 须 将 任务 分 解 成 多 个 进 
程 以 便 并 行 执行 。 仅 当 用 于 有 效 协 调 并 行 处 理 器 的 硬 、 软 件 是 可 用 的 ， 这 种 组 织 才 是 有 效 的 。 

现在 ， 我 们 来 扩充 17.1 节 所 介绍 的 分 类 以 反映 三 种 新 结构 ， 如 图 17-18 所 示 。 计 算 机 组 织 能 
以 一 个 或 多 个 控制 单元 来 区 分 。 多 个 控制 单元 暗示 着 多 个 处 理 器 。 遵 循 我 们 先前 的 讨论 ， 若 多 个 
处 理 器 能 在 一 个 给 定 任 务 上 协同 操作 ， 它 们 被 称 为 并 行 处 理 器 (parallel processor) 。 


单 控制 器 多 控制 器 


SA 


单 处 理 器 流水 线 式 ALU 并行 的 多 个 ALU 多 处 理 器 并 行 多 处 理 器 
图 17-18 计算 机 组 织 分 类 


读者 应 知晓 某 些 不 太 恰 当 的 术语 的 真正 意义 ， 这 些 术语 会 在 一 些 文献 上 磁 到 。 术 语 “ 向 量 
处 理 器 ”( vector processor) 经 常 是 等 同 于 一 个 流水 线 式 ALU AA, 虽然 正如 我 们 讨论 过 的 ， 并 
行 ALU 组 织 和 并 行 处 理 器 组 织 也 是 为 向 量 处 理 而 设计 的 。 术 语 “ 阵 列 处 理 ” (array processing) 
某 些 时 候 指 的 是 并 行 ALU。 再 一 次 强调 ， 尽 管 上 述 三 种 组 织 的 任 一 种 对 处 理 阵 列 都 是 优化 了 的 ， 
把 事情 和 弄 糟 的 是 ,“ 阵 列 处 理 器 ” (array processor) 通常 指 的 是 一 个 辅助 处 理 器 ， 它 接 到 一 个 通 
用 处 理 器 来 完成 指定 的 向 量 计算 。 阵 列 处 理 器 可 使 用 流水 线 式 或 并 行 式 ALU 方法 。 

目前 ， 流 水 线 式 ALU 占据 市 场 的 主导 地 位 。 流 水 线 式 系统 比 其 他 两 种 方法 要 简单 些 。 它 们 
的 控制 器 和 操作 系统 都 已 很 好 地 开发 出 来 了 ， 能 实现 有 效 地 分 配 资源 和 高 性 能 。 本 节 的 剩余 部 
分 以 一 个 专门 例子 更 详细 地 考察 这 种 方法 。 


17.7.2 IBM 3090 向 量 机 制 


用 于 向 量 处 理 的 流水 线 ALU 组 织 的 一 个 好 的 例子 是 ， 为 IBM 370 结构 开发 的 并 在 高 端 3090 
系列 实现 的 向 量 部 件 [PADE88，TUCK87 ] 。 这 个 部 件 可 添加 到 基本 系统 上 , 但 此 可 选 部 件 能 与 
基本 系统 高 度 集成 在 一 起 。 它 类 似 于 像 Cray 系列 这 样 的 超级 计算 机 上 的 向 量 部 件 。 

这 个 IBM 的 向 量 机 制 使 用 了 几 个 向 量 寄 存 器 。 每 个 向 量 寄存 器 实际 上 是 一 组 标量 寄存 器 ， 
或 称 一 个 体 (bank) 。 为 计算 C=4+B 的 向 量 和 ， 向量 4 和 B 被 装 入 两 个 向 量 寄存 器 ,来 自 这 些 
寄存 器 的 数据 尽 可 能 快 地 被 传送 通过 ALU， 结 果 存 于 第 三 个 向 量 寄存 器 。 计 算 的 重 委 和 输入 数 
据 以 块 的 形式 装 和 人 寄存器， 导致 明显 超过 普通 ALU 操作 的 加 速 。 

1. 组 织 

此 IBM 向 量 结构 以 及 类 似 的 流水 线 式 向 量 ALU， 提 供 了 超越 标量 算术 指令 循环 的 性 能 提高 ， 
原因 在 于 如 下 三 种 方法 : 

。 固定 的 并 预先 确定 的 向 量 数据 结构 ， 准 许 循环 中 的 辅助 指令 (housekeeping instruction ) 
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被 快速 的 内 部 〈 硬 件 或 微 代 码 ) 机 器 操作 所 代替 。 
。 对 几 个 连续 向 量 元 素 的 数据 存 取 和 算术 运算 能 并 发 进行 ， 或 通过 在 流水 线 式 设 计 中 重 码 
这 样 的 操作 或 通过 多 元 素 操作 的 并 行 完 成 。 

。 向 量 寄存 器 用 于 中 间 结 果 的 暂 存 ， 避 免 了 额外 的 存储 器 访问 。 

图 17-19 表示 了 此 向 量 机 制 的 通常 组 织 。 虽 然 此 向 量 部 
件 看 起 来 与 主 处 理 器 是 物理 分 立 的 ， 但 它 的 结构 是 System/ 
370 结构 的 一 个 扩展 ， 并 与 System/370 兼容 。 向 量 部 件 以 如 
下 方式 集成 到 System/370 结构 中 : 

e 已 有 的 System/370 指令 用 于 所 有 标量 运算 。 

© 各 个 向 量 元 素 的 算术 运算 产生 与 相应 的 System/370 
标量 指令 严格 相同 的 结果 。 例 如 ， 一 个 设计 决策 涉及 
在 一 个 浮 点 DIVIDE 运算 中 结果 的 定义 。 结 果 是 应 当 
与 标量 浮 点 除法 严格 一 致 ; 还 是 应 当 允 许 一 个 近似 值 ， 
使 得 可 以 高 速 实现 但 会 在 一 位 或 多 位 低 序 位 上 引入 误 
FE? 决策 是 这 样 做 出 的 ， 完 全 保持 与 System/370 结构 
兼容 ， 即 使 为 此 会 付出 少许 性 能 降低 的 代价 。 
向 量 指令 是 可 中 断 的 ， 并 且 它 们 的 执行 在 相应 的 中 
断 处 理 完成 之 后 能 由 中 断 点 恢复 ， 以 与 System/370 程序 中 断 策略 兼容 的 方式 工作 。 
算术 异常 与 System/370 的 标量 算术 指令 异常 相同 ， 或 是 它 的 扩展 ， 并 且 类 似 的 处 理子 程 
序 也 能 使 用 。 为 适应 这 点 ， 使 用 了 一 个 中 断 向 量 索引 (vector interruption index) ， 它 能 指 
示 一 个 向 量 寄存 器 中 受 异 常 〈 如 溢出 ) 影响 的 位 置 。 于 是 ， 当 向 量 指令 恢复 执行 时 ， 向 
量 寄 存 器 中 相应 位 置 能 被 访问 。 

© 向 量 数据 驻 存在 虚拟 存储 器 中 ， 而 且 以 标准 方式 处 理 页 故障 。 

这 种 集成 程度 提供 了 几 个 好 处 。 现 有 的 操作 系统 能 支持 这 个 带 少许 扩展 的 向 量 部 件 。 原 有 
的 应 用 程序 、 语 言 编译 程序 和 其 他 软件 不 加 修改 即 可 运行 。 要 利用 向 量 部 件 优势 的 软件 则 可 以 
根据 需要 修改 。 

2. 寄存 器 

向 量 机 制 一 个 重要 的 设计 出 发 点 是 ， 操 作 数 是 位 于 寄存 器 还 是 位 于 存储 器 。IBM 组 织 是 被 称 
为 寄存 器 到 寄存 器 的 ， 因 为 输入 和 输出 的 向 量 操 作 数 都 能 在 向 量 寄存 器 中 按 段 展示 。 这 种 方法 
亦 用 于 Cray 超级 计算 机 上 。 一 个 用 于 控制 数据 (Control Data) 机 器 的 替代 方法 ， 是 直接 由 存储 
器 得 到 操作 数 。 使 用 向 量 寄 存 器 的 主要 缺点 是 程序 员 或 编译 程序 必须 考虑 到 它们 。 例 如 ， 假 设 向 
量 寄存 器 的 长 度 是 下 ， 待 处 理 的 向 量 长 度 是 Y， 而 且 N > 天 。 在 这 种 情况 下 ， 必 须 完成 一 个 向 量 
循环 ， 一 次 完成 天 个 元 素 的 操作 ， 而 循环 需 重复 N/K 次 。 向 量 寄存 器 方法 的 主要 优点 是 ， 操 作 
与 较 慢 的 主 存 解 耦 了 ， 操 作 主 要 在 寄存 器 中 发 生 。 

使 用 寄存 器 能 实现 的 加 速 可 用 图 17-20 说 明 。 此 FORTRAN 例 程 将 向 量 A 乘 以 向 量 B 产生 向 
量 C。 这 里 的 每 个 向 量 都 有 一 个 实 部 (AR, BR, CR) 和 一 个 虚 部 (AI, BI, CI), IBM 3090 能 
在 每 个 处 理 器 时 钟 或 每 个 周期 之 内 完成 一 次 主 存 存 取 〈 读 或 写 ) 。 若 有 寄存 器 ， 它 能 支持 每 周期 
两 次 读 和 一 次 写 ， 并 能 在 它 的 算术 单元 中 每 周期 产生 一 个 结果 。 让 我 们 假设 能 使 用 一 种 可 指派 
两 个 源 操作 数 和 一 个 结果 的 指令 ”。 图 17-20a 表示 ， 以 存储 器 到 存储 器 指令 ， 完 成 每 一 次 迭代 的 





图 17-19 带 向 量 机 制 的 IBM 3090 


O XF 370/390 体系 结构 ， 所 有 的 三 操作 数 指令 (寄存 器 和 存储 器 指令 ，RS) 都 使 用 了 两 个 寄存 器 操作 数 和 一 个 存 
储 器 操作 数 。 在 例子 的 a 部 分 中 ,我 们 假设 三 操作 数 指令 中 所 有 的 操作 数 都 来 自 于 存储 器 。 这 一 假设 是 出 于 便于 
比较 的 考虑 。 实 际 上 ， 这 种 格式 的 指令 未 被 向 量 体 系 结构 机 器 采用 。 
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计算 需要 总 计 18 个 周期 。 而 采用 纯 寄 存 器 到 寄存 器 结构 〈 见 图 17-19b) ， 这 个 时 间 减 少 到 12 个 
周期 。 当 然 ， 采 用 寄存 器 到 寄存 器 运算 ， 在 计算 之 前 必须 把 向 量 装 和 人 向 量 寄存 器 ， 而 在 计算 之 后 
要 存 人 存储 器 。 对 大 的 向 量 而 言 ， 这 个 固定 的 耗费 是 相对 比较 小 的 。 图 17-20e 表示 ， 在 一 条 指 
令 中 指派 存储 器 和 寄存 器 两 种 操作 数 ， 能 将 每 次 迭代 进一步 减少 到 10 个 周期 。 这 后 一 种 指令 包 
括 在 向 量 部 件 中 ” 。 


FORTRAN ROUTINE: 
DO 100J =1, 50 
CR(D = AR(J) * BR(J) -AI(J)* BI(J) 
100 CI(J)= AR(J) * BIG) + AI(J) * BR(J) 


ARG) * BRO) ng 
AIG) * BIG) >T) 
TID-T20) CRO) 


ARG) * BIO) 130) 
AIQ) * BRO) > T4Q) 
a r H ~ 


TOTAL 





a) 存储 器 到 存储 器 


ARO VIG) ， 
vig), Smee — 


VAD * BRO > V70) 
VeD+VIO > V8 
aD >W 

c) 存储 器 到 寄存 器 
Vi= 向 量 寄存 


ARBRALBI= PHRF MGR EML 一 一 一 一 一 一 一 
= 存储 器 中 的 临时 位 置 d) 混合 指令 


图 17-20 向量 计算 的 可 选 存储 


v30) = BIG). 





BI) > VAG) 
V 





17-21 阐明 了 IBM3090 向 量 机 制 的 寄存 器 部 分 。 这 里 有 16 个 32 位 向 量 寄存 器 ， 它 们 亦 能 
组 成 8 个 64 位 向 量 寄存 器 。 每 个 寄存 器 元 素 能 保存 整数 或 浮 点 数 。 于 是 ， 向 量 寄存 器 可 用 32 位 
与 64 位 整数 值 以 及 32 位 与 64 位 浮 点 值 。 

3090 体系 结构 规定 ， 每 个 寄存 器 包含 8 ~512 个 标量 元 素 ， 实 际 长 度 的 选取 涉及 权衡 。 基 本 
上 ， 完 成 一 次 向 量 运算 的 时 间 由 流水 线 启 动 和 寄存 器 填充 的 开销 ， 加 上 每 个 向 量 元 素 一 个 周期 
的 计算 所 组 成 。 于 是 ， 大 的 寄存 器 元 素数 能 减少 启动 时 间 在 计算 中 所 占 的 比例 。 然 而 ， 这 个 效应 
必须 与 在 进程 切换 时 保存 和 恢复 向 量 寄 存 器 所 要 求 的 附加 时 间 相 权衡 ， 并 且 要 考虑 到 实际 的 成 
本 和 芯片 面积 限制 。 这 些 考虑 导致 在 当前 的 3090 实现 中 ， 每 个 向 量 寄存 器 有 128 个 元 素 。 





O 随后 将 讨论 的 复合 指令 可 以 进一步 减少 所 需 的 时 钟 周期 数 。 
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128 个 元 素 








(| 向 量 状态 寄存 器 
ema 
图 17-21 IBM 3090 向 量 机 制 的 寄存 器 





向 量 部 件 需要 三 个 另外 的 寄存 器 。 向 量 屏 蔽 寄存 器 (vector-mask register) 包含 用 于 选择 向 量 
寄存 器 中 的 哪些 元 素 将 被 一 个 具体 运算 所 处 理 的 屏蔽 位 。 向 量 状态 寄存 器 (vector-status register) 
包含 像 向 量 计数 这 样 的 控制 字段 。 向 量 计数 确定 向 量 寄存 器 中 有 多 少 元 素 将 被 处 理 。 向 量 活动 
计数 (vector-activity count) 保持 着 执行 向 量 指令 花费 时 间 的 记录 。 

3. 复合 指令 

如 前 面 所 述 ， 为 改善 性 能 可 使 用 链接 来 使 指令 执行 重 琶 。IBM 向 量 部 件 的 设计 者 未 选择 包含 
这 种 能 力 ， 这 出 于 几 方 面 的 考虑 。 要 支持 复合 指令 ，System/370 结构 将 被 扩展 到 能 处 理 复杂 的 中 
tr (包括 它们 对 虚拟 存储 器 的 影响 ) ， 并 在 软件 中 需 做 相应 的 修改 。 一 个 更 基本 的 出 发 点 是 ， 为 
实现 链接 而 在 向 量 部 件 中 添加 控制 和 寄存 器 存 取 通路 的 成 本 。 

替代 的 是 ， 将 向 量 计算 中 最 普遍 的 三 种 操作 序列 ， 即 乘 后 加 、 乘 后 减 和 乘 后 累加 ， 组 合成 单 
一 指令 (一 个 操作 码 ) 的 形式 来 提供 。 例 如 ， 存 储 器 到 寄存 器 的 MULTIPLY-AND-ADD 指令 由 存 
储 器 读 取 一 个 向 量 ， 它 被 来 自 寄 存 器 的 一 个 向 量 乘 ， 然 后 再 把 此 积 与 第 三 个 向 量 相 加 并 存 人 第 
三 个 向 量 的 寄存 器 。 在 图 17-20 的 例子 中 ， 通 过 使 用 复合 指令 MULTIPLY-AND-ADD 以 及 MULTI- 
PLY-AND-SUBTRACT, 一 次 迭代 的 总 时 间 由 10 个 周期 减少 到 8 个 周期 。 

不 像 链 接 ， 复合 指 令 不 要 求 使 用 另外 的 寄存 器 来 暂 存 中 间 结 果 ， 并且 它们 要 求 较 少 的 寄存 
器 访问 。 例 如 ， 考 虑 如 下 的 链 : 

A—VRI 

VR1 + VR2—VR1 
这 种 情况 下 ， 要 求 对 VR1 向 量 寄存 器 的 两 次 存 人 。 在 IBM 结构 中 ， 有 存储 器 到 寄存 器 的 ADD 指 
令 ， 利用 这 条 指令 ， 只 需要 把 “和 ” 放 到 VR1 中 。 复 合 指令 亦 避 兔 了 对 反映 几 条 指令 并 发 执行 
时 机 器 状态 描述 的 需求 ， 这 就 简化 了 操作 系统 和 中 断 管 理 中 的 状态 保存 和 恢复 工作 。 

4. 指令 集 

表 17-3 总 结 了 为 IBM 3090 向 量 机 制定 义 的 算术 逻辑 操作 。 另 外 ， 有 存储 器 到 寄存 器 的 装载 
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(load) 指令 和 寄存 器 到 存储 器 的 保存 (store) 指令 。 注 意 ， 多 数 指令 使 用 三 操作 数 格式 。 还 有 ， 
多 数 指令 有 几 个 变 体 ， 分 别 取决 于 操作 数 的 位 置 。 源 操作 数 可 以 是 向 量 寄存 器 〈(V) 、 存 储 器 
(S) 或 一 个 标量 寄存 器 (Q); 目标 操作 数 总 是 向 量 寄存 器 ， 除 了 比较 指令 以 外 。 比 较 指令 的 结 
果 要 进入 向 量 屏蔽 寄存 器 。 算 上 这 些 变 体 ， 总 的 操作 码 数量 (不 同 的 指令 数 ) 是 171。 然 而 ， 这 
个 相当 大 的 数量 ， 实 现 起 来 并 不 像 想 象 中 那样 昂贵 。 一 旦 机 器 提供 了 算术 单元 和 将 操作 数 由 存 
储 器 、 标 量 寄存 器 以 及 向 量 寄存 器 馈送 给 向 量 流水 线 的 数据 路 径 ， 主 要 的 硬件 成 本 就 已 成 形 。 体 
系 结构 只 是 以 较 小 的 附加 成 本 ， 就 能 对 这 些 寄存 器 和 流水 线 提供 丰富 的 指令 变 体 集 。 


表 17-3 IBM 3090 向 量 机 制 : 算术 和 逻辑 指令 















































数据 类 型 

BOE 浮 ”点 操作 数位 置 

长 | 短 | 二 进 制 或 逻辑 
加 FL FS BI V+V—V V+S—V Q+V-V Q+SV 
减 FL | FS BI V-V>V V-SoV Q-VoV Q-SoV 
He FL | FS. BI VxV>V V xV—>V QxV 一 V Q xS>V 
除 FL | FS | 一 W/V—V V/S—V Q/VV Q/S—V 
比较 FL | Fs | BI V. VV V-SoV Q- VV Q- S>V 
乘 加 FL | FS 一 V+VxS—V V+QxV>V V+QxSoV 
乘 减 FL | FS 一 - V-VxS—V V-QxV>V V-QxS—V 
乘 累加 FL | FS 一 P+ + VoV P+ +SoV 

















求 补 
正 绝对 值 
负 绝对 值 
最 大 

最 大 绝对 值 





































V&S—V 






Q&V—V 








VIS>V QIV3V QISSV 
V@s—V Q@VV 











说 明 : 数据 类 型 操作 数位 置 
FL 长 浮 点 数 V 向 量 寄存 器 
FS SPP S 存储 器 
BI 二 进 制 整数 Q 标量 (通用 或 浮 点 寄存 器 ) 
LO ”逻辑 型 P 向量 寄 存 器 中 的 部 分 和 
。 特殊 操作 
表 17-3 中 的 大 多 数 指令 不 需要 再 说 明 ， 但 两 个 求 和 指令 需要 进一步 说 明 。 将 一 个 单个 向 量 
各 元 素 加 在 一 起 的 ACCUMULATE (RI) 指令 ， 或 将 两 个 向 量 的 积 的 各 元 素 累 加 的 MULTIPLY 
- AND - ACCUMULATE ( 乘 累加 ) 指令 ， 提 出 了 一 个 有 趣 的 设计 问题 。 当 然 ， 我 们 希望 取得 
ALU 流水 线 的 全 部 优点 ， 尽 可 能 迅速 地 完成 这 些 累 加 和 运算。 问题 是 两 个 数 放 人 流水 线 后， 其 和 
不 是 立即 可 用 的 ， 而 是 要 延迟 几 个 周期 。 于 是 ， 直 到 前 两 个 元 素 已 全 部 通过 整个 流水 线 ， 第 三 个 


2 “第 五 部 分 并 行 组 织 


元 素 才 能 与 其 和 相 加 。 为 了 克服 这 个 问题 ， 采 用 了 产生 4 个 部 分 和 的 方式 来 将 向 量 元 素 相 加 。 具 
体 而 言 ， 元 素 0，4，8，12 ，…，124 相 加 产生 部 分 和 0， 元 素 1，5，9，13，…，125 产生 部 分 
All, woH2, 4, 10, 14, =, 126 产生 部 分 和 2， Jug 3y Ts 11, 15; =; 127 Bregar 
因为 流水 线 中 的 延迟 大 约 是 4 个 周期 ， 故 每 个 部 分 和 都 能 在 流水 线 中 以 最 大 速度 快速 进行 。 一 
分 立 的 向 量 寄存 器 用 于 保持 此 部 分 和 。 当 原先 向 量 的 所 有 元 素 都 被 处 理 之 后 ，4 个 部 分 和 再 一 po 
相 加 产生 最 终结 果 。 这 里 第 二 步 的 性 能 不 是 十 分 重要 的 ， 因 为 只 涉及 4 个 向 量 元 素 。 


17.8 推荐 的 读物 和 Web 站 点 


[CATA94 ] 综述 了 多 处 理 器 原理 并 详细 考察 了 基于 SPARC 的 SMP, [STON93] 和 [HWAN93] 中 亦 有 
SMP 某 些 细节 的 介绍 。 

[MILE00] 概述 了 用 于 多 处 理 器 的 cache 一 致 性 算法 和 技术 ， 重 点 讨论 性 能 。 [ LILJ93] 是 有 关 多 处 理 
器 中 cache 一 致 性 问题 的 优秀 综述 。[ TOMA93] 包含 了 此 课题 许多 重要 论文 的 转载 。 

[UNGE02] 是 多 线程 处 理 器 和 片上 多 处 理 器 概念 的 优秀 综述 。[ UNGE03] 是 提出 的 和 目前 使 用 的 显 式 
多 线程 处 理 器 的 长 篇 综述 。 

[BUYY99a] 和 [BUYY99b] 中 有 对 集群 系统 的 详尽 论述 。[ WEYG01] 重点 不 是 对 集群 系统 的 技术 性 
综述 ， 而 是 对 各 种 商业 产品 予以 评价 。[ DESA05 ] 描述 了 IBM 的 刀片 服务 器 体系 结构 。 

在 [ STON93 ] Al [HWAN93] 中 可 以 找到 有 关 向 量 计算 的 有 益 讨论 。 


BUYY99a Buyya, R. High-Performance Cluster Computing: Architectures and Systems. 
Upper Saddle River, NJ: Prentice Hall, 1999. 

BUYY99b Buyya, R. High-Performance Cluster Computing: Programming and Applica- 
tions. Upper Saddle River, NJ: Prentice Hall, 1999. 


CATA94 Catanzaro, B. Multiprocessor System Architectures. Mountain View, CA: Sun- 
soft Press, 1994. 


DESAOS5 Desai, D.., et al. “BladeCenter yn vew ” IBM Journal of Research and 
Development, November 2005. 

HWAN93 Hwang, K. Advanced Computer Architecture. New York: McGraw-Hill, 1993. 

LILJ93 Lilja, D. “Cache Coherence in Large-Scale Shared-Memory Multiprocessors: 
Issues and Comparisons.” ACM Computing Surveys, September 1993. 

MILE00 Milenkovic, A. “Achieving High Performance in Bus-Based Shared-Memory 
Multiprocessors.” JEEE Concurrency, July-September 2000. 

STONS3 Stone, H. High-Performance ‘Computer Architecture. Reading, MA: Addison- 
Wesley, 1993. 

TOMA93 Tomasevic, M., and Milutinovic, v. The Cache Coherent Problem in Shared- 
Memory Multiprocessors: Hardware Solutions. Los Alamitos, CA: IEEE Computer 
Society Press, 1993. 


UNGE02 Ungerer, T.; R B.; and Silc, J. . “Multithreaded Po The is 
Journal, No. 3, 2002. . 

UNGE03 Ungerer, T.; Rubic, B.; and Silc, z“ À Survey of Podeis with Explicit Mul- 
tithreading.” ACM Computing Surveys, March, 2003. 


WEYGO1 Weygant, P. Clusters for High Availability. Upper Saddle River, NJ: Prentice 
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17.9 关键 词 、 思 考题 和 习题 


关键 词 

active standby: 主动 式 备 用 nonuniform memory access (NUMA): 非 均 匀 存 储 器 
cache coherence: cache 一 致 性 访问 

cluster: 集群 passive standby: 被 动 式 备 用 

directory protocol: 目录 协议 snoopy protocol: 监听 协议 

failback: 故障 退回 symmetric multiprocessor (SMP); 对 称 多 处 理 器 
failover; 故障 接管 uniform memory access (UMA): 均匀 存储 器 访问 
MESI protocol: MESI 协议 uniprocessor; 单 处 理 器 

multiprocessor; 多 处 理 器 vector facility: 向 量 机 制 

思考 题 


17.1 列 出 并 简要 定义 计算 机 系统 组 织 的 三 种 类 型 。 

17.2 SMP 的 主要 特征 是 什么 ? 

17.3 与 单 处 理 器 相 比 ，SMP 有 哪些 潜在 优势 ? 

17.4 为 SMP 设计 0S， 某 些 关键 考虑 是 什么 ? 

17.5 ”软件 的 和 硬件 的 cache 一 致 性 方案 有 何不 同 ? 

17.6 MESI 协议 有 4 种 状态 ， 每 种 状态 的 意思 是 什么 ? 
17.7 集群 化 的 主要 好 处 是 什么 ? 

17.8 ”故障 接管 和 故障 退回 有 何不 同 ? 

17.9 UMA, NUMA 和 CC -NUMA 三 者 之 间 的 区 别 是 什么 ? 


习题 
17.1 假定 一 个 计算 机 系统 中 有 个 处 理 器 ， 每 个 处 理 器 的 执行 速率 是 x MIPS。 程 序 代码 有 a 比例 部 分 能 在 
n 个 处 理 器 上 同时 执行 ， 其 余部 分 必须 在 单 处 理 器 上 顺序 执行 。 
(a) 请 给 出 程序 在 这 一 系统 上 运行 时 的 有 效 执行 速率 ， 用 n、x 和 a 表示。 
(b) 若 n=16, x =4MIPS， 则 a 应 为 何 值 才能 产生 40MIPS 的 系统 性 能 。 
17.2 一 台 有 8 个 处 理 器 的 多 处 理 器 连接 20 台 磁 带 机 。 有 大 量 的 作业 提交 给 系统 ， 每 个 作业 最 大 要 求 4 台 
磁带 机 才能 完成 执行 。 假 定 每 个 作业 开始 运行 时 只 需要 3 台 磁 带 机 ， 长 时 间 运 行 之 后 到 结束 前 才 短 时 
间 需 要 第 4 台 磁 带 机 ， 并 假设 这 些 作业 是 循环 不 断 地 被 提交 的 。 
(a) 如 果 OS 中 的 调度 程序 是 这 样 工作 : 没有 4 台 磁 带 机 可 用 ， 不 启动 作业 ; 一 旦 启动 作业 ，4 台 磁 
带 机 立即 被 指派 ， 直 到 作业 结束 才 释 放 。 问 : 一 次 能 进行 的 最 大 作业 数 是 多 少 ? 作为 这 种 调度 策 
略 的 结果 ， 处 于 空闲 的 磁带 机 最 大 数 和 最 小 数 各 是 多 少 ? 
(b) 请 推荐 一 种 策略 ， 它 能 改善 磁带 机 的 利用 率 ， 而 又 避免 系统 死 锁 。 此 时 ， 一 次 能 进行 的 最 大 作 
业 数 是 多 少 ， 空 闲 磁带 机 上 限 和 下 限 又 是 多 少 ? 
17.3 ”你 能 预见 在 基于 总 线 的 多 处 理 器 上 采用 cache 写 一 次 (write-once) 方法 会 有 什么 问题 吗 ? 若 有 ， 请 推 
荐 一 种 解决 方法 。 i 
17.4 考虑 一 个 SMP 配置 中 只 有 两 个 处 理 器 的 情况 ， 每 个 处 理 器 有 一 个 cache， 并 使 用 MESI 协议 。 经 过 一 
段 时 间 后 。 两 个 处 理 器 都 要 访问 存储 器 的 同一 数据 行 x， 并 假定 最 初 两 cache 中 有 此 行 的 无 效 副 本 。 
图 17-22 给 出 处 理 器 Pl 读 * 行 后 的 结果 。 请 以 此 为 初始 情况 ， 画 出 如 下 操作 序列 的 后 续 图 : 
(1) P2i¥ x. 
(2) Pl 写 x (为 清楚 起 见 ， 此 Pl cache 行 标记 x')。 
(3) Pl 写 x (此 Pl cache 47 #pid x”) 。 
(4) P2 读 x。 
17.5 ”图 17-23 表示 两 种 可 能 的 cache 一 致 性 协议 的 状态 图 ， 请 推导 并 说 明 每 种 协议 ， 并 将 其 与 MESI 协议 做 
比较 。 
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图 17-22 MESI 例子 : 处 理 器 1 读 高 速 缓存 行 x 


RY, 


R( j) R(i) Wi) R(i) f 
WO) 《Ke wo? 
ZO wy ZÀ) R(j) ZJ 


W(i) = 处 理 器 i 写 到 该 行 
R(i) = 处 理 器 i 读 取 该 行 
Zi) = 高 速 缓存 i 替换 该 行 
WOJ) = 处 理 器 / BAF) 
R( 刀 = 处 理 器 7 读 取 该 行 (/ 为 ) 
Z(j)=cache j 替换 该 行 (. 六 ) 
TE: cache i 中 某 指 定 行 的 状态 转移 图 wy ZU) 






= 
Ss 


图 17-23 ”两 种 cache 一 致 性 协议 


17.6 考虑 一 个 有 Ll 和 12 cache 并 使 用 MESI 协议 的 SMP。 正 如 17.3 节 所 述 ，L2 cache 的 每 行 有 4 种 可 能 的 


17.7 


17.8 


状态 。L1 cache 行 是 否 也 需要 4 种 状态 ?如 果 不 是 ， 请 说 明 什 么 状态 能 取消 。 

IBM 大 型 机 的 一 个 早期 版 本 (S/390 G4), 使 用 了 三 级 cache, +j 2990 相同 ， 仅 Ll cache 在 处 理 器 芯 
Hr 〈 称 为 处 理 器 单元 ，PU) Eo L2 cache 类 似 于 7990, 13 cache 在 一 分 立 芯 片上 ， 位 于 12 cache 和 存 
储 器 卡 之 间 ， 起 着 存储 控制 器 作用 。 表 17-4 表示 了 IBM S/390 三 级 cache 配置 情况 下 的 性 能 。 这 个 问 
题 的 目的 在 于 确认 包括 第 3 级 cache 是 否 有 价值 。 请 确定 只 有 LI cache 的 系统 的 存 取 开销 (平均 PU 
周期 数 ) ; 并 将 得 到 的 值 归 一 化 到 1.0。 然 后 ， 再 确定 使 用 Ll 和 L2 cache 以 及 使 用 全 部 三 级 cache 的 
系统 存 取 开销 。 记 下 每 种 情况 下 的 改进 总 量 ， 并 表明 你 对 L3 cache 价值 的 看 法 。 


表 17-4 S/390 SMP 配置 上 典型 的 高 速 缓存 命中 率 [MAK97 ] 
存储 系统 访问 开销 (PU 时 钟 周 期 ) 命中 率 (%) 






















Ll cache 1 89 
L2cache 5 5 
L3cache 14 3 





存储 器 





(a) 考虑 一 个 带 有 指令 和 数据 分 立 cache 的 单 处 理 器 ， 其 命中 率 分 别 是 H, AH, FRADE SE ZI cache 的 
存 取 时 间 是 c 个 时 钟 周期 ， 存 储 器 和 cache 间 的 块 传送 时 间 是 b 个 时 钟 周期 。 令 f 是 取 指 占 存储 
器 访问 的 比例 ，f 是 数据 cache 中 脏 行 占 被 蔡 换 行 的 比例 。 假 设 采用 回 写 策略 。 请 用 上 述 定义 的 
参数 确定 有 效 的 存储 器 访问 时 间 。 

(b) 假定 有 一 个 基于 总 线 的 SMP， 其 中 每 个 处 理 器 都 有 (a) 部 分 所 述 的 特征 。 除 了 存储 器 读 写 之 外 ， 
每 个 处 理 器 还 必须 完成 cache 作废 处 理 ， 这 将 影响 有 效 的 存储 器 访问 时 间 。 令 f,, 是 引发 作废 信号 
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的 数据 访问 的 比例 ， 此 信号 被 传送 到 其 他 数据 cache。 发 送 此 信号 的 处 理 器 要 用 上 时 钟 周期 完成 作 
废 操作 ， 其 他 处 理 器 不 参与 此 次 作废 操作 。 请 确定 有 效 的 存储 器 访问 时 间 。 


17.9 图 17-24a~ 图 17-24d 分 别 暗示 的 是 什么 组 织 方案 ? 





图 17-24 习题 17.9 的 图 


17.10 在 图 17-8 中 ， 某 些 图 表示 出 水 平行 部 分 填充 ， 另 一 种 情况 是 整 行 空白 。 请 说 明 这 代表 哪 两 种 效率 


17.11 


17.12 


损失 。 

考虑 图 12-13b 所 描述 的 流水 。 现 在 不 管 指 令 取 指 和 译 码 两 阶段 ， 将 它 改 画 成 图 17-25a 来 代表 线程 A 

的 执行 。 图 17-24b 代表 另 一 线程 B 的 执行 。 两 种 

情况 处 理 器 使 用 的 都 是 简单 流水 。 

(a) 为 每 个 线程 画 出 类 似 图 17-8a 的 指令 发 射 图 。 

(b) 假定 在 片上 多 处 理 器 上 并 行 执行 这 两 个 线程 ， 
芯片 上 两 个 处 理 器 核 每 个 都 使 用 简单 流水 。 a 
请 画 出 类 似 图 17-8k 的 指令 发 射 图 ， 并 再 画 出 t 
有 图 17-25 风 格 的 流水 执行 图 。 

(e) 假定 有 一 个 双 发 射 超标 量 体 系 结构 为 交错 式 到 ° 
多 线程 超标 量 的 实现 ， 重 复 (b) 问题 ， 假 定 
无 数据 相关 性 。 注 意 : 这 里 没有 唯一 的 答案 ， 8 
你 需 对 延迟 和 优先 级 进行 假设 。 9 

(d) 对 于 阻塞 式 多 线程 超标 量 的 实现 ， 重 复 (c) 10 
问题 。 ll 

(e) 对 于 4 RH SMT 体系 结构 ， 重 复 (c) 问题 。 12 

为 计算 向 量 算术 表达 式 : D(ID) =A(I) +B(I) xC a) 

ea 图 17-25 执行 2 个 线程 

如 下 代码 段 需 要 执行 64 次 : 

Load R1, B (I) /R1<Memory (a +1) / 

Load R2, C(I) /R2+—Memory (B +I) / 

Multiply R1, R2 /R1+(R1) x (R2)/ 

Load R3, A(I) /R3<—Memory (y + I) / 

Add R3, R1 /R3<—(R3) + (R1)/ 

Load D1, D3 Memory (0 + I)<«—(R3)/ 

这 里 RI R2 和 R3 是 处 理 器 的 寄存 器 ，a、B、y、9 分 别 是 数组 B(ID) CO), AMADO 的 主 存 起 

始 地 址 。 假 定 每 个 Load 或 Store 用 4 个 时 钟 周期 ，Add 用 2 个 时 钟 周期 ，Multiply 用 8 个 时 钟 周期 ， 

这 是 指 单 处 理 器 或 在 SIMD 机 器 单个 处 理 器 上 执行 的 情况 。 

(a) 请 计算 : 这 个 代码 段 在 一 个 SISD 处 理 器 上 重复 执行 64 次 所 需 的 总 的 处 理 器 时 钟 周 期 数 ， 不 考 
虑 其 他 所 有 延 时 。 

(b) 考虑 使 用 一 台 有 64 个 处 理 器 的 SIMD 机 器 ， 这 6 条 指令 经 过 向 量化 后 能 同时 对 64 个 分 量 的 向 量 
数据 进行 操作 ， 处 理 单元 和 数据 部 件 是 被 同一 频率 时 钟 驱动 的 。 请 计算 在 此 SIMD 机 器 上 的 总 
的 执行 时 间 ， 不 考虑 指令 广播 和 其 他 延迟 。 

(c) SIMD 计算 机 与 SISD 计算 机 相 比 ， 其 加 速 比 是 多 少 ? 






© 
到 
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17.13 


17.14 


17.15 


17.16 


为 如 下 程序 制作 一 个 向 量化 版 本 : 
DO 20 IT=1,N 
Bit, 1) =0 
DO 10 J=1,M 
A(I) =A(I) +B(I, J) xC(I, J) 
10 CONTINUE 
D(I) =E(I) +A(I) 
20 CONTINUE 
一 个 应 用 程序 在 9 台 计 算 机 的 集群 上 执行 ， 花 费 了 7 了 时 间 。 测 试 进一步 表明 ,7 的 25% 时间 是 此 应 
用 程序 在 9 台 计 算 机 上 同时 运行 ， 其 余 时 间 应 用 程序 仅 在 单一 计算 机 上 运行 。 
(a) 请 计算 ,上述 情况 比 之 程序 在 单 计算 机 上 运行 所 获得 的 有 效 加 速 比 ， 再 计算 上 述 程序 中 并 行 化 
代码 (编程 或 编译 时 使 用 了 集群 模式 ) 所 占 的 百分比 œo 
(b) 假设 我 们 能 有 效 地 使 用 18 台 而 不 是 9 台 计 算 机 来 运行 并 行 化 代码 部 分 ， 请 计算 所 实现 的 有 效 
加 速 比 。 
在 一 计算 机 上 执行 的 FORTRAN 程序 如 下 ， 其 并 行 化 版 本 将 在 一 个 由 32 台 计 算 机 组 成 的 集群 系统 上 运行 。 


Lis DO 10 T=1, 1024 


L2; SUM (I) =0 
Ws 's DO 20 J=1,1 
L4 :20 SUM (I) =SUM(I) +I 


L5 :10 CONTINUE 

假设 行 2 和 行 4 每 个 都 用 2 个 机 器 周期 ， 包 括 所 有 的 处 理 器 和 存储 器 访问 动作 。 不 计 软 件 循环 控制 

语句 (4F1, 3, 5) 引起 的 开销 和 其 他 所 有 系统 开销 以 及 资源 冲突 。 试 问 : 

(a) 程序 在 单个 计算 机 上 总 的 执行 时 间 是 多 少 ( 以 机 器 周期 为 单位 )? 

(b) 将 I 循环 的 选 代 以 如 下 方式 在 32 个 计算 机 中 分 摊 : 计算 机 1 执行 最 初 的 32 次 迭代 (I=1 到 
32) ,计算 机 2 执行 下 一 个 32 次 迭代 ， 如 此 继续 分 摊 下 去 。 总 的 执行 时 间 是 多 少 ? 与 (a) E 
较 ， 速 度 提高 了 多 少 ? (注意, J 循环 支配 的 计算 负载 在 各 计算 机 中 未 做 均衡 ) 

(c) 说 明 应 如 何 修 改 上 述 并 行 化 方式 ， 以 使 计算 负载 在 32 个 计算 机 上 分 布 均衡 地 并 行 执行 。 负 载 
均衡 意味 着 对 1、J 两 个 循环 都 要 将 相等 数量 的 加 法 运算 指派 到 各 计算 机 上 。 

(d) 32 台 计 算 机 并 行 执行 所 需要 的 最 小 执行 时 间 是 多 少 ? 与 单个 计算 机 相 比 ， 速 度 提高 多 少 ? 

考虑 两 向 量 相 加 的 如 下 两 个 程序 形式 : 








Ll: DO 10I =1,N DOALL K =1,M 
L2: A(I) =B(I) +C (I) DO 10 T=L(K-1) +1,KL 
L3 :10 CONTINUE A(I) =B(I) +C(I) 
L4: SUM =0 10 CONTINUE 
LDls DO20 J=1,N SUM (K) =0 
L6: SUM = SUM +A (J) DO 207 =1,L 
L7 :20 CONTINUE SUM (K) = SUM(K) +A(1(K-1) +d) 
20 CONTINUE 
ENDALL 








(a) 左边 的 程序 在 单一 处 理 器 上 执行 。 假 设 执行 2 LA 和 L6 每 行 用 1 个 处 理 器 时 钟 周期 。 为 简化 ， 
不 考虑 其 他 代码 行 所 要 求 的 时 间 。 最 初 ,所 有 数组 已 装 入 主 存 就 绪 ,并 且 此 短程 序 段 已 在 指令 
cache 中 。 执 行 这 个 程序 要 用 多 少时 钟 周期 ? 

(b) 右边 的 程序 打算 在 一 个 有 M 个 处 理 器 的 多 处 理 器 上 执行 。 我 们 将 循环 操作 部 分 划分 成 M 个 段 ， 
每 段 L=N/M 个 元 素 。DOALL 声明 ,所 有 M 个 段 并 行 执行 。 执 行 的 结果 是 产生 MARIA, 
定 , 经 由 共享 存储 器 的 处 理 器 之 间 的 通信 操作 每 次 都 需要 上 个 时 钟 周期 ,这 样 每 次 部 分 和 的 加 法 
要 求 上 个 时 钟 周期 。 一 个 1 级 二 进 制 加 法 器 树 能 合并 所 有 的 部 分 和 ,这 里 = log,M。 产 生 最 终结 
果 需 要 多 少 周期 ? 

(c) 假定 数组 有 N =22” 个 元 素 , 并 且 M =256。 使 用 多 处 理 器 能 实现 的 加 速 比 是 多 少 ? 假定 k=200。 
这 个 加 速 比 是 因子 为 256 的 理想 加 速 比 的 百 分 之 几 ? 
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本 章 要 点 


© 多 核 计 算 机 或 者 多 核 处 理 器 ， 在 一 个 计算 机 芯片 上 有 两 个 或 者 多 个 处 理 器 。 
e 由 于 硬件 性 能 问题 ， 使 用 更 多 单个 处 理 器 芯片 已 达到 一 个 极限 ， 包 括 指 令 层 并 行 和 功 耗 
的 限制 。 

© 另 一 方面 ， 多核 体 系 结构 给 软件 开发 者 探索 多 核 上 的 多 线程 能 力 提出 挑战 。 

e 多 核 结构 的 主要 变量 是 芯片 处 理 器 的 数目 、cache 存储 器 级 数 、cache 共享 的 程度 。 

e 多 核 系 统 中 另 一 个 结构 上 的 设计 决策 是 单个 内 核 是 超标 量 或 者 实现 并 发 多 线程 (SMT) 。 

多 核 计 算 机 也 称 为 单 芯 片 多 处 理 器 ， 指 在 一 个 单独 的 硅 片 上 结合 两 个 或 者 多 个 处 理 器 ( 称 
为 核 ) 。 典 型 地 ， 每 个 核 由 一 个 独立 处 理 器 的 所 有 组 件 构成 ， 如 寄存 器 组 、ALU 、 流 水 线 硬 件 以 
及 控制 单元 ， 加 上 Ll 指令 和 数据 cache。 除 了 多 个 核 ， 当 代 多 核 芯片 也 包括 L2 cache， 并 在 一 些 
BFP, WA L3 cache, 

这 一 章 对 多 核 系 统 进行 综述 。 首 先 考 察 多 核 计 算 机 发 展 的 硬件 性 能 因素 ， 探 索 多 核 系 统 功 
耗 方面 的 软件 挑战 。 接 下 来 ,考察 多 核 组 织 结 
构 。 最 后 ， 研 究 两 个 多 核 产品 实例 ， 即 Intel 
和 ARM, 


18.1 硬件 性 能 问题 

正如 我 们 在 第 2 章 所 讨论 的 ， 微 处 理 器 系统 
在 执行 性 能 上 已 经 历 了 十 多 年 稳定 的 指数 增长 。 
图 2-12 显示 了 这 个 增长 部 分 是 由 于 芯片 处 理 器 结 
构 上 的 精练 ， 男 一 部 分 是 由 于 时 钟 频率 的 提高 。 





18.1.1 增加 并 行 


处 理 器 设计 结构 的 改变 已 主要 聚焦 在 增加 指 
令 级 并 行 上 ， 从 而 更 多 工作 能 在 每 个 时 钟 周期 完 
成 。 按 照 时 间 排 序 这 些 改变 ,包括 (参见 图 18- 
Lyi 

。 RAR: 各 条 指令 通过 多 段 流 水 线 被 执 

行 ， 因 而 ， 在 一 条 指令 执行 时 ， 另 一 条 指 
令 在 流水 线 的 另 一 个 阶段 同时 被 执行 。 

。 超 标量 : 通过 复制 执行 资源 来 构造 多 个 流 
水 线 。 只 要 不 出 现 冲 突 ， 指 令 就 能 够 在 多 
个 流水 线 上 并 发 地 执行 。 

。 并 发 多 线程 (SMT): 寄存 器 体 (register 
bank) 被 复制 ， 从 而 多 线程 能 共享 流水 线 

对 于 以 上 这 些 创新 ， 设 计 者 多 年 来 试图 通过 图 18-1 可 选择 的 芯片 组 织 
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增加 复杂 度 来 提高 系统 性 能 。 在 流水 线 例 子 中 ， 简 单 的 三 段 流 水 被 五 段 甚至 更 多 段 流水 替代 ， 有 
些 实现 了 12 个 以 上 流水 段 。 实 际 上 这 个 走势 能 扩展 多 远 是 有 限制 的 ， 因 为 如 果 拥 有 较 多 流水 段 ， 
则 需要 更 多 逻辑 、 内 部 连接 和 控制 信号 。 如 果 拥 有 超标 量 结构 ， 性 能 提高 能 通过 增加 并 行 流水 线 
的 数目 获得 。 随 着 流水 线 的 数量 增加 ， 这 里 同样 存在 性 能 反而 下 降 的 问题 。 需 要 更 多 逻辑 来 管理 
冲突 以 及 分 段 指 令 资 源 。 最 终 ， 当 一 个 单线 程 运行 到 某 点 时 ， 资 源 冲突 和 相关 性 将 阻止 系统 充分 
利用 所 有 可 获得 的 流水 线 资 源 。 同 样 ， 拥 有 SMT 的 性 能 递减 也 会 达到 这 一 点 ， 因 为 一 套 流 水 线 
上 多 个 线程 管理 的 复杂 度 限 制 了 线程 数量 以 及 能 够 被 有 效 利用 的 流水 线 数量 。 

在 图 18-2 [OLUK05] 中 ， 上 图 显示 近年 来 Intel 处 理 器 性 能 的 指数 增长 。 中 图 是 结合 Intel 
发 布 SPEC CPU 数据 和 处 理 器 时 钟 频 率 计算 得 出 的 ， 以 给 出 一 个 提高 指令 级 并 行 开发 使 得 性 能 提 
高 程度 的 测评 。 在 广泛 开发 并 行 之 前 ，20 世纪 80 年 代 后 期 曲线 存在 一 个 平缓 区 。 接 下 来 ， 随 着 
设计 者 能 够 不 断 开发 流水 线 、 超 标量 技术 以 及 SMT， 曲 线 出 现 了 陡然 升 高 。 但 是 ， 从 2000 EF 
始 ， 随 着 有 效 指令 级 并 行 开发 达到 一 hm MESM = me ER 


10000 | 





相对 性 能 /周期 








功 耗 (W) 
e 
e? 
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图 18-2 Intel 硬件 的 一 些 趋势 
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18.1.2 It 


随 着 芯片 上 晶体 管 数目 的 增加 ， 为 了 保持 更 高 性 能 的 发 展 趋势 ， 设 计 者 采取 更 精细 处 理 器 
设计 (流水 线 、 超 标量、SMT) 以 及 高 时 钟 频率 。 不 幸 的 是 ,在 芯片 密度 和 时 钟 频率 增加 的 同 
时 ， 对 功 耗 的 需求 呈 指 数 增长 。 这 一 点 体现 在 图 18-2 最 下 图 。 

控制 功 耗 密度 的 一 种 方法 是 为 cache 存储 器 使 用 更 多 的 芯片 面积 。 内 存 品 体 管 较 小 且 其 功 耗 
密度 的 数量 级 低 于 逻辑 的 〈 见 图 18-3a) 。 如 图 18-3b 所 示 [BORK03 ] ， 当 芯片 晶体 管 密度 增加 
时 ， 内 存 所 占 芯片 面积 的 百分比 已 上 升 超过 50% 。 


















功 耗 密度 ` 
(W/cm?) 整个 芯片 面积 中 cache 所 占 的 百分比 
00 a 
10 ee) : 1 0 7 a a oF 
aa > On ON OT 9 30 o a 
特征 尺寸 hm) 特征 尺寸 (hum) 
a) 功 耗 密度 b) 芯片 面积 


图 18-3 ” 功 耗 和 存储 器 的 关系 


图 18-4 显示 了 功 耗 趋势 的 方向 [BORK07] 。 到 2015 年 ， 我 们 希望 能 看 到 在 一 个 300mm 的 
裸 片上 有 大 约 1000 亿 晶 体 管 的 微 处 理 器 
芯片 。 假 设 内 存 占 芯片 面积 50% ~ 60% 
左右 ， 那 么 芯片 将 支持 大 约 100MB cache 10"! 
存储 器 ， 给 逻辑 部 分 留 下 10 亿 晶 体 管 。 A 

如 何 利用 这 些 逻 辑 晶体 管 是 设计 的 ， 
一 个 关键 问题 。 如 前 面 讨 论 那样 ， 有 效 站 
地 使 用 一 些 方法 (如 超标 量 和 SMT) 是 E 
有 限制 的 。 总 的 来 说 ， 近 十 年 的 经 验 已 108 
精练 为 Pollack 规则 [POLL99] 的 拇指 - 
法 则 ， 它 声称 性 能 增长 与 复杂 度 增 加 的 10 
平方 根 严格 地 成 比例 。 换 句 话 说， 如 果 中 
增加 两 倍 处 理 器 核 中 的 逻辑 部 分 ， 那么 2001 2003 2005 2007 2009 2011 2013 2015 2017 
它 的 性 能 仅 增加 40% 。 原 则 上 ， 随 着 核 图 184 芯片 上 晶体 管 的 使 用 
数目 增加 ， 使 用 多 核 潜 在 地 提供 了 性 能 
的 近 线 性 (near-linear) 提高 。 

功 耗 是 转向 多 核 架 构 的 另 一 个 原因 。 因 为 当 一 块 世 片 拥有 如 此 丰富 的 cache 存储 器 时 ， 任 何 
一 个 执行 的 线程 都 不 可 能 有 效 利用 所 有 内 存 。 即 使 拥有 SMT， 由 于 你 是 在 一 个 相对 有 限 的 方式 中 
进行 多 线程 开发 ， 也 不 能 全 面 开发 一 个 巨大 的 cache， 而 许多 相对 独立 的 线程 或 过 程 则 有 较 大 机 
会 完全 利用 cache 存储 器 。 
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18.2 软件 性 能 问题 


多 核 结构 软件 性 能 的 详细 考察 超出 了 我 们 的 范围 。 本 节 我 们 首先 给 出 这 些 问题 的 一 个 概述 ， 
然后 看 一 个 挖掘 多 核能 力 应 用 设计 的 例子 。 


18.2.1 多核 软件 


多 核 结构 的 潜在 性 能 受益 于 有 效 开发 应 用 程序 并 行 资源 的 能 力 。 我 们 首先 来 关注 一 个 运行 
在 多 核 系 统 上 的 简单 应 用 程序 。 回 顾 第 2 章 阿 姆 达尔 定律 : 
加 速 比 = 程 序 在 单个 处 理 器 上 的 执行 时 间 / 程 序 在 六 个 并 行 处 理 器 上 的 执行 时 间 
1 


sap +£ 


该 定律 假定 程序 中 执行 时 间 的 (1 -f) 段 包含 的 代码 是 固定 连续 的 ，f 段 包含 无 调度 开销 的 无 限 
可 并 行 代码 。 
该 定律 使 多 核 结构 前 景 可 观 。 但 是 如 图 
18-5a 所 示 ， 甚 至 连 一 小 段 连续 代码 都 产生 了 
值得 关注 的 影响 。 如 果 代 码 只 有 10% 是 固定 
连续 的 (f=0.9)， 那 么 该 程序 在 一 个 8 核 处 
理 器 系统 上 仅 能 获得 4.7 倍 的 性 能 提升 。 除 此 
之 外 ， 由 于 多 处 理 器 上 通信 和 任务 分 配 会 导致 
软件 开销 以 及 cache 一 致 性 开销 ， 导 致 曲线 中 
性 能 峰值 因 使 用 多 处 理 器 的 开销 增加 开始 下 
KE, 来 自 [MCDOOS] 的 图 18-5b 是 一 个 具有 
代表 性 的 例子 。 
可 是 ， 软 件 工程 师 们 还 在 关注 这 个 问题 ， 
目前 存在 大 量 能 有 效 开发 一 个 多 核 系统 的 应 
用 。[ MCDO05 ] 报道 了 一 套数 据 库 应 用 ， 其 
中 主要 关注 减少 硬件 结构 、 操 作 系 统 、 中 间 件 
和 数据 库 应 用 软件 内 的 串 行 部 分 。 图 18-6 显 
示 了 这 个 结果 。 如 此 例 所 示 ， 数 据 库 管 理 系 统 
和 数据 库 应 用 是 在 多 核 系统 能 有 效 利 用 的 地 
方 。 许 多 种 服务 器 也 能 有 效 使 用 并 行 多 核 结 
构 ， 因 为 服务 器 典型 地 就 是 并 行 处 理 多 个 相对 
独立 的 事务 。 
除了 通用 服务 器 软件 ， 许 多 应 用 软件 也 能 
随处 理 器 核 数量 的 变化 而 实现 性 能 的 伸缩 。 
[MCDO06] 列 出 了 下 面 的 例子 : 
。 多 线程 本 地 应 用 : 多 线程 应 用 以 拥有 小 BSS See Seen es 
部 分 高 线程 处 理 器 为 特征 。 线 程 应 用 (threaded application) 的 例子 包括 Lotus Domino 或 
Siebel CRM (客户 关系 管理 器 ) 。 

© 多 处 理应 用 : 多 处 理应 用 以 存在 许多 单线 程 处 理 为 特征 。 多 处 理应 用 的 例子 包括 Oracle 数 
据 库 、SAP 以 及 PeopleSoft, 

e Java 应 用 : Java 应 用 包含 一 个 基本 方式 运行 的 线程 。Java 语言 不 但 对 于 多 线程 应 用 十 分 


(18.1) 





处 理 器 数 
b) 考虑 软件 额外 开销 后 的 加 速 比 
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便捷 ， 而 且 Java 虚拟 机 是 一 个 提供 Java 应 用 的 调度 和 内 存 管 理 的 多 线程 处 理 。 直 接 得 益 
于 多 核资 源 的 Java 应 用 包括 应 用 4 
服务 器 ， 如 Sun 的 Java 应 用 服务 
器 、BEA 的 Weblogic, IBM 的 
Websphere 以 及 开源 的 Tomcat 应 用 
服务 器 。 所 有 使 用 Java 2 平台 的 应 
用 、 企 业 版 (J2EE 平台 ) 应 用 服 B32 
务 器 能 快速 受益 于 多 核 技 术 。 

。 多 实例 应 用 : 即使 单个 应 用 不 能 
伸缩 以 利用 大 量 的 线程 ， 但 它 仍 
然 可 通过 并 行 运行 多 个 应 用 实例 、 : 
以 获得 多 核 结 构 。 如 果 多 个 应 用 K 16 32 48 64 







| fe Oracle DSS 4-way join 
+f (MC data mining 
ee Vig ““® DB2 DSS scan & aggs 

4 uf AAA A Oracle ad hoc insurance 


48 OLTP 


实例 需要 一 定 程度 的 独立 ， 可 以 处 理 器 数 
采用 虚拟 技术 给 每 个 实例 提供 单 图 18-6 多 处 理 器 硬件 平台 上 数据 库 
独 和 安全 的 环境 。 工作 负载 的 缩放 


18.2.2 ”应 用 实例 : Valve 游戏 软件 


Valve 是 一 家 娱乐 技术 公司 ， 已 开发 了 许多 大 众 游戏 以 及 Source 引擎 ， 它 是 最 广泛 应 用 的 游 
戏 引 擎 之 一 。Source 是 Valve 为 其 游戏 以 及 其 他 授权 游戏 开发 者 使 用 的 一 个 动画 引擎 。 

近年 来 ，Valve 为 利用 Intel 和 AMD 多 核 处 理 器 芯片 [REIM06] ， 使 用 多 线程 重新 编写 了 
Source 引擎 软件 。 修 订 的 Source 引擎 代码 为 Valve 游戏 (如 Half Life 2) 提供 了 更 强大 的 支持 。 

以 Valve 视角 来 看 ， 线 程 粒度 选项 定义 如 下 [HARR06] : 
。 粗 粒度 线程 : 被 称 为 “系统 ”的 每 个 模块 都 会 被 分 配 到 一 个 单独 的 处 理 器 上 运行 。 以 
Source 引擎 为 例 ， 这 意味 着 : 图 像 计 算 被 放 到 某 个 处 理 器 上 ，AI (人 工 智 能 ) 计算 被 放 
到 另 一 个 处 理 器 上 ， 动 作 处 理 则 又 是 一 个 不 同 的 处 理 器 ， 如 此 类 推 。 该 方案 非常 直接 。 本 
质 上 ， 每 个 重要 的 模块 都 是 一 个 单线 程 ， 而 系统 协调 工作 主要 是 将 所 有 的 线程 与 一 个 时 
间 轴 线程 同步 。 

。 细 粒度 线程 : 许多 类 似 或 者 同样 的 任务 遍布 在 多 个 处 理 器 上 。 例 如 ， 在 一 个 数组 上 选 代 的 

循环 可 以 分 成 许多 小 的 在 单个 线程 内 并 行 调度 的 并 行 循环 。 

。 混 合 线程 : 这 包括 为 某 些 系统 选取 细 粒 度 线程 ， 以 及 为 另 一 些 系统 选取 单线 程 。 

Valve 发 现 通 过 粗 粒度 线程 ， 在 两 个 处 理 器 上 能 获得 与 在 一 个 单 处 理 器 上 执行 相 比 两 信 的 性 
能 ， 但 是 这 仅 是 理想 情况 。 对 于 真实 世界 游戏 ， 性 能 提高 大 约 为 1.2 倍 。Valve 也 发 现 有 效 利用 
细 粒 度 线程 十 分 困难 。 每 个 工作 单元 的 时 间 是 变化 的 ， 并 且 维 护 各 种 结果 及 其 后 续 事件 在 时 间 
轴 上 的 位 置 也 需要 复杂 的 编程。 

Valve 发 现 混合 线程 的 方法 最 有 前 景 并 且 在 多 核 处 理 器 上 具有 最 好 的 性 能 伸缩 性 ， 特 别 是 对 
于 即将 出 现 的 8 核 或 16 核 处 理 器 而 言 。Valve 标记 出 那些 被 固定 分 配 到 某 个 处 理 器 时 才能 高 效 运 
行 的 系统 。 一 个 例子 是 混 音 系统 ， 它 几乎 没有 用 户 交互 ， 不 受 窗口 帧 配置 的 限制 ， 工 作 在 它 自 己 
的 数据 集 上 。 其 他 模块 〈 如 场景 绘制 ) 可 以 组 织 为 许多 线程 ， 从 而 模块 能 在 一 个 处 理 器 上 执行 ， 
并 且 随 着 遍布 到 越 来 越 多 的 处 理 器 上 而 获得 更 高 性 能 。 

图 18-7 显示 了 绘制 模块 的 线程 结构 。 在 这 个 层级 结构 ， 根 据 需要 高 层 线程 产生 底层 线程。 
该 绘制 模块 依赖 Source 引擎 的 关键 部 分 一 “世界 列表 (world list) ， 它 是 游戏 世界 中 可 视 化 元 素 
的 一 个 数据 库 表示 。 第 一 项 任务 是 确定 需要 绘制 的 世界 区 域 是 什么 。 下 一 步 工 作 是 确定 从 多 个 
角度 看 到 场景 中 的 对 象 是 什么 。 接 下 来 是 加 强 处 理 器 工作 。 该 绘制 模块 必须 完成 每 个 对 象 从 多 
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个 视角 (如 玩家 角度 、TV 监视 器 角度 、 水 中 反射 角度 ) 的 视图 。 





图 18-7 绘制 模块 的 混合 线程 


绘制 模块 的 线程 策略 的 一 些 关 键 元 素 如 [ LENONO7] 中 所 列 ， 包括: 

。 为 多 场景 并 行 构造 场景 绘制 列表 。 

e CEA RU. 

。 并 行 计算 全 部 场景 中 所 有 角色 的 骨架 变换 。 

。 并 行 多 线程 绘制 。 

设计 者 发 现 简单 锁定 关键 数据 库 ， 如 世界 列表 ， 对 于 线程 太 低 效 。 在 超过 95% 的 时 间 内 ， 
线程 试图 从 数据 集中 读数 据 ， 而 最 多 5% 的 时 间 用 来 写 人 数据 集 。 这 样 一 来 ， 可 以 有 效 利 用 目前 
一 个 称 为 单 写 者 多 读者 的 模块 机 制 。 


18.3 多核 组 织 结构 

在 开始 描述 顶层 结构 之 前 ， 多 核 结 构 中 的 主要 变量 如 下 : 

e 攻 片上 核 处 理 器 的 数目 。 

e cache 存储 器 的 级 数 。 

o 共享 cache 存储 器 的 数目 。 

图 18-8 显示 了 多 核 系统 的 四 种 常见 结构 。 图 18-8a 出 现在 早期 多 核 计 算 机 芯片 结构 中 ， 现 在 
在 符 和 式 世 片 中 仍 可 见 。 该 结构 唯一 的 片上 cache 是 Ll cache， 每 个 核 拥 有 自己 专门 的 Ll cache, 
L1 cache 几乎 固定 被 划分 为 指令 cache 和 数据 cache。 该 结构 的 一 个 实例 就 是 ARM11 MPCore, 

图 18-8b 的 结构 也 是 一 个 没有 片上 cache 共享 的 。 其 中 芯片 上 有 足够 的 面积 来 支持 L2 cache, 
该 结构 的 一 个 实例 是 AMD Opteron, KI 18-80 显示 了 一 个 类 似 的 芯片 空间 对 存储 器 的 分 配 ， 但 使 
用 了 一 个 共享 的 L2 cache, Intel Core Duo 就 是 这 种 结构 。 最 后 ， 随 着 芯片 上 可 利用 的 cache 存储 
器 资源 的 增多 ， 出 于 性 能 考虑 ， 可 以 设置 一 个 L3 cache， 并 由 多 个 核 共 享 ， 同 时 每 个 处 理 器 核 仍 
拥有 一 个 专用 的 Ll cache 和 L2 cache, Intel Core i7 就 是 这 种 结构 。 

芯片 上 使 用 一 个 共享 的 L2 cache 比 独 靠 一 个 专门 cache 有 许多 优势 : 

(1) 结构 干涉 能 够 减少 整体 失效 率 。 这 是 因为 : 当 某 个 核 上 的 线程 访问 主 存 某 个 地 址 之 后 ， 
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a) 专用 的 L1 cache b) 专用 的 L2 cache 





c) 共享 的 L2 cache d) 共享 的 L3 cache 


18-8 JLAPB RAMS 
该 地 址 所 在 的 存储 块 就 被 调 人 共享 cache 中 ， 若 随后 另 一 个 核 上 的 线程 要 访问 同一 个 存储 块 ， 则 
可 以 直接 从 共享 的 片上 cache 中 读 取 。 

(2) 一 个 相关 的 优势 是 被 多 核 共享 的 数据 在 共享 的 cache 级 上 不 会 被 复制 。 

(3) 利用 合适 的 帧 替换 算法 ， 分 配给 每 个 核 的 共享 cache 数目 是 动态 的 ， 因 此 ， 那 些 存储 器 
访问 局 部 性 不 强 的 线程 能 够 占用 更 多 的 cache 空间 。 

(4) 通过 共享 存储 器 空间 ， 容 易 实 现 处 理 器 内 部 通信 。 

(5) 使 用 一 个 共享 的 L2 cache 使 cache 一 致 性 问题 限制 在 L1 cache 级 ， 从 而 提供 一 些 额外 的 
性 能 优势 。 

芯片 上 拥有 专用 L2 cache 的 一 个 潜在 优势 是 每 个 核 享有 对 其 私有 L2 cache 更 快速 的 访问 。 这 
是 线程 展示 强大 局 部 性 的 优势 所 在 。 

随 着 可 获得 的 存储 器 数 和 核 数 的 增加 ， 使 用 一 个 共享 L3 cache， 附 加 一 个 共享 L2 cache 或 每 
个 核 专用 的 L2 cache 似乎 比 简单 共享 一 个 大 块 L2 cache 能 提供 更 好 的 性 能 。 

多 核 系统 中 另 一 个 结构 设计 决策 是 单个 核能 否 超标 量 或 实现 并 发 多 线程 (SMT) 。 例 如 ，In- 
tel Core Duo 采用 超标 量 核 ， 而 Intel Core i7 使 用 SMT 核 。SMT 能 按 比例 提高 多 核 系统 支持 的 硬件 
层 上 线程 的 数目 。 如 此 一 来 ， 一 个 拥有 四 核 和 SMT 的 多 核 系 统 ， 其 中 每 个 核 支持 四 个 并 发 线程 ， 
在 应 用 层 看 来 与 一 个 拥有 16 个 核 的 多 核 系 统 相 同 。 随 着 软件 开发 对 并 行 资源 更 全 面 的 利用 ， 
SMT 方法 比 超标 量 方法 更 有 吸引 力 。 


18.4 Intel x86 多 核 结 构 

Intel 近来 推出 了 许多 多 核 产品 。 本 节 我 们 主要 来 看 两 个 例子 : Intel Core Duo 和 Intel Core i7, 
18.4.1 Intel Core Duo 

Intel Core Duo 在 2006 年 推出 ， 实 现 了 两 个 x86 超标 量 处 理 器 ， 以 及 一 个 共享 L2 cache ( 见 
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图 18-8c) 。 

Intel Core Duo 总 体 结构 如 图 18-9 所 示 。 我 们 从 上 至 下 来 看 一 下 主要 组 件 。 正 如 多 核 系统 中 
常见 的 一 样 ， 每 个 核 有 它 自己 的 专门 Ll cache。 本 
例 中 ， 每 个 核 有 32KB 指令 cache 和 32KB 数据 
cache。 

每 个 核 有 一 个 独立 的 热量 控制 单元 (thermal 
control unit) 。 由 于 当今 芯片 晶体 管 的 高 密度 ， 热 量 
管理 是 基本 能 力 ， 特 别 是 对 于 笔记 本 电脑 和 移动 系 
统 。Core Duo 热量 控制 单元 用 来 在 热量 界限 下 管理 
芯片 散热 以 获取 最 大 处 理 器 性 能 。 同 时 ， 热 量 管理 
通过 一 个 较 冷 系统 和 较 低 风扇 噪声 来 改进 人 类 工程 
学 。 本 质 上 ， 热 量 管理 单元 监控 数字 传感器 。 每 个 
核 被 定义 在 一 个 独立 的 热量 区 。 每 个 热量 区 的 最 大 
温度 通过 软件 选择 的 专门 寄存 器 来 单独 报告 。 如 果 
一 个 核 内 的 温度 超过 阔 值 ， 则 热量 控制 单元 减 小 该 
核 的 时 钟 频率 以 减少 热 的 产生 。 

Core Duo 结构 的 下 一 个 关键 组 件 是 高 级 可 编程 
中 断 控制 器 (advanced programmable interrupt control- 
ler, APIC), APIC 可 完成 很 多 功能 ， 包 括 : 

(1) APIC 支持 处 理 器 间 的 中 断 ， 使 得 某 个 处 理 
器 上 的 进程 能 够 中 断 其 他 〈 单 个 或 一 组 ) 处 理 器 的 
执行 。 对 于 Core Duo 而 言 ， 某 个 处 理 器 核 上 运行 的 E189 Thal Core Daw eas 
线程 产生 的 中 断 将 首先 被 该 核 的 本 地 APIC 所 接受 ， 然 后 传递 到 其 他 核 上 的 APIC ， 就 好 像 该 中 断 
是 在 其 他 处 理 器 核 上 发 生 一 样 。 

(2) APIC 接受 WO PT, 发送 这 些 消 息 给 合适 的 核 。 

(3) 每 个 APIC 含有 一 个 定时 器 ， 它 能 通过 OS 设置 以 产生 一 个 中 断 给 本 地 核 。 

功 耗 管理 逻辑 (power management logic) 负责 尽 可 能 降低 功 耗 ， 从 而 增加 移动 平台 (如 笔记 
本 电脑 ) 的 电池 寿命 。 本 质 上 ， 功 耗 管理 逻辑 监视 热量 条 件 以 及 CPU 活动 ， 并 适当 调节 电压 和 
功 耗 。 它 包括 一 个 高 级 的 功 耗 门 控 能 力 ， 允 许 一 个 过 细 粒 度 的 逻辑 控制 。 仅 当 需 要 时 ,该 逻辑 控 
制 打开 单个 处 理 器 的 逻辑 子 系统 。 而 且 ， 很 多 总 线 和 数组 被 分 离 ， 从 而 某 些 操作 模式 下 所 需 数据 
能 在 不 需要 时 处 于 一 个 低 功 耗 状态 。 

Core Duo 芯片 包括 一 个 共享 的 2MB L2 cache。 此 cache 逻辑 允许 根据 当前 核 所 需 的 cache 空 
间 动 态 分 配 ， 因 此 一 个 核能 被 分 配 达到 100% 的 L2 cache。 该 L2 cache 包含 支持 其 附带 Ll cache 
的 MESI 协 议 的 逻辑 。 需 考虑 的 一 个 关键 点 是 在 L1 cache 上 cache 写 人 何 时 完成 。 当 一 个 处 理 器 
写 人 时 ，cache 行 得 到 了 M 状态 。 如 果 这 行 在 写 之 前 没 在 玉 或 M 状态 ，cache 发 送 一 个 RFO 
( Read-For-Ownership) 需求 ， 以 确保 该 行 在 此 L1 cache 中 且 在 其 他 cache 中 处 于 工 状态 。Intel 
Core Duo 扩展 了 这 个 协议 ， 以 考虑 出 现 多 个 Intel Core Duo 芯片 被 组 织 为 一 个 对 称 多 处 理 器 
(SMP) 系统 的 情况 。L2 cache 使 得 系统 区 分 两 种 情况 ， 一 种 情况 是 ， 数 据 被 两 个 本 地 核 共 享 ， 
而 与 处 理 器 系统 的 其 他 部 分 无 关 ; 另 一 种 情况 是 ， 数 据 被 裸 片上 的 一 个 或 多 个 cache 以 及 一 个 外 
部 总 线 代理 〈 可 以 是 另 一 个 处 理 器 ) 共享 。 当 一 个 核发 出 一 个 RFO 时 ， 如 果 cache 行 仅 被 本 地 
裸 片 上 另 一 个 cache 共享 ， 可 以 在 内 部 迅速 解决 该 RFO ， 根 本 不 通过 外 部 总 线 。 仅 当 此 行 被 外 部 
总 线 上 的 另 一 个 代理 共享 时 ， 才 需要 外 部 发 出 RFO, 

总 线 接口 连接 外 部 总 线 ， 称 为 FSB (front side bus) ， 它 连接 主 存 、LO 控制 器 和 其 他 处 理 器 
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E 
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芯片 。 


18.4.2 Intel Core i7 


Intel Core i7 在 2008 Æ HEH, SE HLS 4 4S x86 SMT 处 理 器 ， 每 个 处 理 器 包括 一 个 专用 L2 
cache 以 及 一 个 共享 的 13 cache ( 见 图 18-8d)。 oe 

Intel Core i7 的 总 体 结构 如 图 18-10 所 示 。 每 个 
核 拥 有 它 自 己 专用 的 L2 cache， 并 且 四 个 核 共 享 一 
个 8MB L3 cache, Intel 用 来 使 其 cache 更 高 效 的 一 
个 机 制 是 预 取 ， 其 中 硬件 检查 内 存 访问 模式 ， 试 图 
用 不 久 可 能 需要 的 数据 去 填充 cache。 拿 芯片 上 这 
个 三 层 cache 结构 的 性 能 与 Intel 的 两 层 组 织 结构 进 
行 比 较 是 颇 有 意思 的 。 表 18-1 显示 了 运行 在 同一 时 
钟 频率 下 的 两 个 Intel 多 核 系统 ， 就 其 时 钟 频率 而 言 
各 自 的 cache 访问 延 时 。Core 2 Quad 拥有 一 个 共享 ~ i 
的 L2 cache， 类 似 于 Core Duo, Core i7 通过 采用 专 3 X8B @ 1.33 GT/s 4 «20b@6.4 GT/s 

















用 的 L2 cache 以 及 提供 对 L3 cache 相对 高 速 的 访 图 18-10 Intel Core i7 模块 图 


问 ， 使 其 在 L2 cache 性 能 上 有 了 提高 。 
表 18-1 cache 延迟 i 


| 

2.66 CHz 4 个 时 钟 周期 11 个 时 钟 周 其 

Core i7 支持 两 种 与 其 他 芯片 进行 外 部 通信 的 形式 。DDR3 存储 器 控制 器 将 DDR 主 存 控制 器 
放 在 芯片 上 。 该 接口 支持 三 个 8 字 节 的 通道 ， 因 此 总 的 总 线 位 宽 为 192 位 ， 总 数据 速率 达到 
32CB/s。 世 片上 由 于 有 存储 器 控制 器 ， 因 此 无 需 FSB. 

快速 通道 互 连 (quickpath interconnect, QPI) 是 一 种 基于 Intel 处 理 器 和 芯片 组 电气 互 连 规 
范 ， 具 备 cache 一 致 性 的 点 到 点 通信 链 路 。 它 使 得 在 连接 的 芯片 之 间 进 行 高 速 通信 。QPI 链 路 工 


作 于 6.4GT/s (每 秒 传输 量 ) 。 每 传送 16 位 ， 增 加 到 12.8CB/s。 由 于 OPI 链 路 是 一 对 双向 的 ， 所 
以 总 的 带宽 达到 25.6GB/s, 









CPU 


Core 2 Quad 
Core i7 


13 cache 





39 个 时 钟 周期 





18.5 ARM11 MPCore 


ARM11 MPCore 是 ARM11 处 理 器 家 族 的 一 款 多 核 产 品 。ARM11 MPCore 可 以 在 每 个 芯片 上 配 
置 多 达 4 个 处 理 器 ， 每 个 处 理 器 拥有 自己 的 Ll 指令 和 数据 cache, X 18-1 列 出 了 系统 包括 默认 
值 的 配置 选项 。 

图 18-11 给 出 了 ARM11 MPCore 的 一 个 结构 图 。 该 系统 的 主要 元 素 如 下 : 

e 分 布 式 中 断 控制 器 (DIC) : 处 理 中 断 检 测 和 中 断 优 先 级 。DIC 将 中 断 分 配给 各 个 处 理 器 。 

。 定时 器 : 每 个 CPU 都 有 其 自己 私有 的 能 产生 中 断 的 定时 器 。 

。 看 门 狗 : 软件 出 错时 发 出 警报 。 如 果 启 用 看 门 狗 ， 则 设置 一 个 预定 的 值 ， 然 后 计数 递减 直 

到 0。 它 被 周期 性 重 置 。 如 果 看 门 狗 的 值 达 到 0， 则 发 出 警报 。 

e CPU 接口 : 处 理 中 断 响 应 、 中 断 屏蔽 (masking) 以 及 中 断 竞争 响应 

e CPU: 一 个 ARM11 处 理 器 。 各 个 CPU 都 作为 一 个 MP11 CPU, 

e 向 量 浮 点 (VFP) 单元 : 在 硬件 上 实现 浮 点 运算 的 协 处 理 器 。 

e L1 cache: 每 个 CPU 都 拥有 自己 专用 的 Ll 数据 cache 和 指令 cache, 
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指令 和 数据 一 致 性 指令 和 数据 一 致 性 指令 和 数据 一 致 性 ”指令 和 数据 一致 性 
64 位 总 线 ”控制 位 。 ”64 位 总 线 ”控制 位 64 位 总 线 ”控制 位 。 64 位 总 线 ”控制 位 


。 监听 控制 单元 (SCU) 


MEEN 任意 第 二 次 读 / 写 
64 位 总 线 


图 18-11 ARM11 MPCore 处 理 器 的 模块 图 
。 监听 控制 单元 (SCU): 负责 保持 Ll 数据 cache 的 一 致 性 。 


18.5.1 中 断 处 理 


DIC 比较 来 自 大 量 资源 中 的 中 断 。 它 提供 以 下 功能 : 

。 屏蔽 中 断 

© 区 分 中 断 优先 级 

。 分 配 中 断 给 目标 MP11 CPU 

。 跟踪 中 断 状态 

。 通过 软件 产生 中 断 

DIC 是 一 个 单独 功能 单元 ， 放 置 在 系统 MP11 CPU 旁 。 这 使 得 系统 中 所 支持 的 中 断 数目 独立 


于 MP11 CPU, DIC 是 内 存 映射 ， 即 DIC 的 控制 寄存 器 被 定义 成 与 主 存 基 址 相关 。MP11 CPU 通过 
SCU 使 用 一 个 私有 接口 访问 DIC, 


DIC 设计 用 来 满足 两 个 功能 需求 : 

© 提供 发 送 中 断 需 求 给 单个 CPU 或 多 个 CPU 的 一 种 方法 。 

。 提供 一 种 处 理 器 间 通 信 的 方法 ， 使 一 个 CPU 上 的 线程 能 被 另 一 个 CPU 的 线程 激活 。 

作为 同时 利用 上 述 两 个 要 求 的 例子 ， 让 我 们 考虑 一 个 在 多 处 理 器 上 运行 的 多 线程 应 用 程序 。 
假定 该 应 用 程序 已 经 分 配 了 一 些 虚 拟 内 存 。 为 了 维护 存储 一 致 性 ， 操 作 系统 必须 更 新 所 有 处 理 
器 上 的 内 存 映射 表 。 操 作 系 统 首 先 将 更 新 那个 实际 分 配 虚拟 内 存 的 处 理 器 上 的 映射 表 ， 然 后 向 


运行 该 应 用 程序 的 其 他 处 理 器 发 出 一 个 中 断 。 其 他 处 理 器 将 利用 该 中 断 的 编号 来 确定 它们 是 否 
需要 更 新 内 存 映射 表 。 


DIC 能 以 如 下 三 种 方法 来 发 送 中 断 给 一 个 或 更 多 CPU: 
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© 中断 仅 能 被 直接 发 送 给 一 个 特定 处 理 器 。 
o 中 断 被 直接 发 送 给 一 个 定义 的 处 理 器 组 。. MPCore 把 第 一 个 接收 该 中 断 的 处 理 器 视 为 处 理 
该 中 断 的 最 佳 位 置 ， 其 中 典型 的 就 是 将 最 近 加 载 的 〈 处 理 器 ) 作为 中 断 接 收 处 理 器 。 
© 中 断 能 被 直接 发 送 给 所 有 处 理 器 。 
从 运行 在 一 个 特定 CPU 上 的 软件 的 角度 来 看 ，0S 能 产生 中 断 给 所 有 或 特定 的 其 他 CPU。 运 
行 在 不 同 CPU 上 的 线程 通信 ， 中 断 机 制 为 消息 传递 采用 了 共享 内 存 。 因 此 ， 当 一 个 线程 被 一 个 
处 理 器 间 通 信 中 断 给 打 断 时 ， 它 会 读 取 合 适 的 共享 内 存 块 ， 以 从 触发 该 中 断 的 线程 中 找 回 消 息 。 
从 MP11 CPU 的 角度 来 看 ， 中 断 可 以 是 : 
。 非 活动 : 非 活动 中 断 是 未 声明 的 ， 或 在 多 处 理 环境 已 完全 被 CPU 处 理 ， 但 仍然 在 某 些 
CPU 内 等 待 或 活动 ， 因 而 在 中 断 资源 上 可 能 未 被 清除 的 中 断 。 

ome: 就 绪 中 断 是 已 声明 ， 且 在 一 CPU 上 没有 开始 处 理 的 中 断 。 

e 活 动 : 活动 中 断 是 在 CPU 上 已 开始 处 理 ， 但 未 处 理 完 的 中 断 。 当 一 个 新 的 高 优先 级 中 断 
打 断 MP11 CPU 中 断 处 理 时 ， 它 能 抢占 一 个 活动 中 断 。 

中 断 来 源 如 下 : 

e 处 理 器 间 的 中 断 (IPI): 每 个 CPU 都 有 私有 中 断 〈 如 IDO ~ID15) ， 它 们 仅 能 被 软件 触发 。 
一 个 IPI 的 优先 级 由 接收 的 CPU 而 不 是 发 送 的 CPU 确定 。 

e 私有 定时 器 和 (或 ) 看 门 狗 中 断 : 这 些 使 用 中 断 ID29 和 30, 

e 继 承 FIQ 行 : 在 继承 IRQ 方式 中 ， 继 承 的 FIQ 引 脚 ， 在 每 个 CPU 基础 上 ， 绕 过 中 断 分 配 

逻辑 ， 并 直接 驱动 中 断 需 求 给 CPU, 

o 硬件 中 断 : 硬件 中 断 被 相关 中 断 输 入 行 的 可 编程 事件 触发 。CPU 最 大 能 支持 224 个 中 断 输 

入 行 。 硬 件 中 断 从 ID32 开始 。 

图 18-12 是 DIC 的 一 个 结构 图 。DIC 可 配置 为 支持 0 ~ 255 个 硬件 中 断 输 入 。DIC 维护 一 张 中 
断 表 ， 上 面 显 示 了 中 断 的 优先 级 和 状态 。 中 断 分 配器 发 送 给 每 个 CPU 接口 最 高 优先 级 就 绪 中 断 ， 
它 接收 中 断 响应 的 反馈 信息 ， 然 后 改变 相应 中 断 的 状态 。CPU 接口 还 发 送 EOI (end of interrupt 
information) ， 它 使 中 断 分 配器 将 该 中 断 的 状态 从 活动 更 新 为 非 活动 。 
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中 断 列 表 


图 18-12 中断 分 配器 的 模块 图 
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表 18-2 ARM11 MPCore 配置 选项 





特征 选择 范围 默认 值 
处 理 器 1~4 4 
每 个 处 理 器 的 指令 cache 大 小 16KB 32KB 或 64KB 32KB 
每 个 处 理 器 的 数据 cache 大 小 16KB, 32KB 或 64KB 32KB 
主 端口 1 或 2 2 
中 断 总 线 宽度 0 ~224， 以 32 脚 递增 32 引 脚 
每 个 处 理 器 的 向 量 浮 点 协 处 理 器 包含 或 不 包含 包含 








18.5.2 cache 一 致 性 


MPCore 监听 控制 单元 (SCU) 设计 用 来 解决 许多 与 共享 数据 访问 和 一 致 性 阻塞 带 来 的 可 伸 
缩 性 限制 相关 的 传统 瓶颈 问题 。 

L1 cache 一 致 性 方案 是 基于 MESI 协议 的 ， 这 在 第 17 章 已 阐述 过 。SCU 监视 器 操作 共享 数据 
以 优化 MESI 状态 迁移 。SCU 给 出 了 三 种 优化 : 直接 数据 搬入、 标签 RAM 副本 以 及 迁移 行 。 

直接 数据 插入 (DDI) 可 不 访问 外 部 存储 器 ， 就 从 CPU 的 Ll cache 复制 清除 的 数据 到 另 一 
CPU 的 Ll cache。 这 样 减少 了 从 L1 cache 到 L2 cache 的 读 行 为 。 于 是 ， 一 个 本 地 L1 cache 的 失效 
被 一 个 远程 L1 cache 解决 ， 而 不 是 通过 访问 共享 L2 cache 得 到 解决 。 

回顾 cache 内 每 行 的 主 存 位 置 是 被 该 行 一 个 标签 所 定义 。 这 个 标签 可 以 作为 一 个 与 cache 中 
行 数 同 样 长 度 的 独立 RAM 块 来 实现 。 在 SCU 中 ,标签 RAM 副本 是 SCU 使 用 的 Ll 标签 RAM 的 
副本 ， 用 来 在 发 送 一 致 性 命令 给 相关 CPU 之 前 检查 数据 的 可 获得 性 。 一 致 性 命令 仅 发 送 给 需 更 
新 数据 cache 一 致 性 的 CPU。 这 样 减少 了 功 耗 ， 降 低 了 在 每 个 内 存 更 新 上 监听 和 操作 每 个 处 理 器 
cache 的 性 能 影响 。 本 地 拥有 可 获得 的 标签 数据 使 得 SCU 限制 了 对 拥有 公共 cache 行 的 处 理 器 的 
cache 操作 。 

迁移 行 的 特点 是 允许 脏 数据 从 一 个 CPU 移 到 另 一 个 ， 而 不 用 写 和 L2 或 从 外 部 存储 器 读 回 数 
据 。 此 操作 可 描述 如 下 。 在 一 个 典型 的 MESI 协议 中 ， 一 个 处 理 器 有 一 个 修改 的 行 ， 另 一 个 处 理 
器 试图 读 此 行 ， 将 发 生 下 面 的 行为 : 

(1) 该 行内 容 被 从 修改 的 行 传送 到 初始 化 读 的 处 理 器 。 

(2) 该 行内 容 被 读 回 到 主 存 。 

(3) 该 行 在 两 个 cache 中 处 于 共享 状态 。 

MPCore SCU 变换 着 处 理 这 种 情况 。SCU 监视 系统 的 一 个 迁移 行 。 如 果 一 处 理 器 有 一 个 修改 
行 ， 且 男 一 个 处 理 器 读 然后 写 它 ，SCU 假定 这 个 位 置 此 后 会 经 历 相同 的 操作 。 当 这 个 操作 又 开始 
Ht, SCU 将 自动 把 该 cache i OR at hr el pie hea 
这 个 优化 也 使 得 处 理 器 直接 传送 cache 行 给 其 他 处 理 器 ， 而 不 用 插入 外 部 存储 器 操作 。 


18.6 ”推荐 的 读物 和 Web 站 点 


两 本 很 好 涉及 本 章 讨论 问题 的 书 是 [OLUK07] 和 [JERR05]。[GOCH06] 和 [MEND06] 描述 了 Intel 
Core Duo, [ FOGO8b] 提供 了 对 Core Duo 流水 线 结构 的 详细 描述 。 


r Technical Reference Manual. 
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| 推荐 的 Web 站 点 





© 多 核 协 会 (Multicore Association): 厂商 组 织 促进 了 多 核 技 术 的 发 展 和 使 用 。 
18.7 关键 词 、 思 考题 和 习题 


关键 词 

Amdahl’s law: 阿 姆 达 尔 定 律 simultaneous multithreading (SMT): 并 发 多 线程 
chip multiprocessor; 芯片 多 处 理 器 superscalar: 超标 量 

multicore: 多 核 

思考 题 


18.1 总 结 简单 指令 流水 线 、 超 标量 和 并 发 多 线程 的 区 别 。 

18.2 ”给 出 设计 者 选择 转向 多 核 结构 ， 而 不 在 一 个 单 处 理 器 内 增加 并 行 性 的 理由 。 

18.3 ”为 什么 现在 有 一 种 将 越 来 越 多 的 芯片 面积 分 配给 高 速 缓存 的 趋势 ? 

18.4 列 出 几 个 能 够 根据 核 数目 伸缩 性 直接 受益 的 例子 。 

18.5 在 顶层 上 ， 一 个 多 核 结 构 中 主要 的 设计 变量 是 什么 ? 

18.6 ” 列 出 多 核 之 间 共 享 L2 cache 与 每 个 核 拥 有 专门 L2 cache 相 比 的 一 些 优势 。 

习题 

18.1 考虑 这 样 一 个 问题 。 假 定 设计 者 有 一 个 芯片 并 且 需 要 决定 用 该 芯片 上 的 多 少 资源 来 实现 高 速 缓存 
(L1L，L2，L3 ) 。 芯 片 的 剩余 部 分 可 用 来 实现 一 个 复杂 的 超标 量 和 (或 ) 一 个 SMT 处 理 器 核 ， 或 多 个 
相对 简单 的 核 。 定 义 如 下 参数 : 
n= 芯片 上 能 包含 的 最 大 核 数 目 。 
k= 实际 上 实现 的 核 数 目 (1<k<n, r=n/k 是 一 个 整数 ) 。 
perf(r) = 用 7 个 处 理 器 核 等 价 的 硬件 资源 实现 单个 处 理 器 所 带 来 的 连续 性 能 提升 ， 当 r=1 Hf, perf(1) =1。 
f= 多 核 上 可 并 行 的 软件 部 分 。 
如 果 构 造 一 个 包含 个 核 的 蕊 片 ， 我 们 期 望 每 个 处 理 器 核能 带 来 1 倍 的 连续 性 能 提升 ,并且 n 个 核能 
利用 多 达 n 个 并 行 线程 的 并 行 性 。 同 样 ， 如 果 蕊 片 有 上 个 核 ， 那 么 每 个 核 应 表现 出 一 个 perf(7) 性 能 ， 
并 且 忌 片 能 利用 多 达 上 个 并 行 线程 的 并 行 性 。 我 们 可 以 修改 阿 姆 达尔 定律 (R (18. 来 说 明 这 个 
情况 ， 表 达 如 下 : 


加 速 比 = 





l-f g 5 
perf(r) * perf(r) xn 
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(a) 判断 这 个 修改 的 阿 姆 达 尔 定 律 。 

(b) 利用 Pollack 规则 ， 设 定 当 n=16 时 per(r) =Yr。 绘 出 当 f=0.5, f=0.975, f=0.99, f=0.999 时 加 
速 比 作为 > 的 函数 。 

(c) 4n=256 时 重复 (b) 问题 。 

ARM11 MPCore 的 技术 参考 手册 介绍 DIC 是 一 个 内 存 映射 。 也 就 是 说 ， 核 处 理 器 使 用 内 存 映射 LO 与 

DIC 通信 。 回 顾 第 7 章 内 存 映 射 VO 中 ， 内 存 位 置 和 LO 设备 有 独立 地 址 空间 。 处 理 器 把 YO 模块 的 

状态 和 数据 寄存 器 视 为 内 存 位 置 ， 并 采用 同样 的 机 器 指令 来 访问 内 存 和 LO 设备 。 基 于 这 些 知 识 ， 图 

18-11 的 结构 图 使 用 什么 路 径 进 行 核 处 理 器 与 DIC 通信 ? 


| 附录 A 
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许多 教师 都 相信 ， 研 究 或 实践 课题 对 于 清楚 理解 计算 机 组 成 和 结构 的 概念 是 至 关 重 要 的 。 不 进行 课题 
训练 ， 让 学 生 把 握 住 某 些 基 本 概念 和 部 件 之 间 的 相互 关系 是 非常 困难 的 。 课 题 深化 了 书 中 引出 的 概念 ， 使 
学 生 更 好 地 了 解 处 理 器 内 部 的 工作 ， 能 激励 学 生 并 给 予 其 信心 : 他 们 能 完全 掌握 这 些 知识 。 

在 本 书 的 正文 中 ， 作 者 已 试图 尽 可 能 清楚 地 给 出 了 概念 并 提供 了 大 量 的 习题 来 加 深 这 些 概念 。 许 多 教 
师 还 希望 为 这 些 内 容 补充 一 些 课题 ， 这 个 附录 对 教师 手册 中 的 支持 资料 予以 某 些 指导 。 这 些 支持 材料 包括 
6 类 课题 和 其 他 的 练习 : 

。 交互 式 模拟 

。 研究 类 课题 
模拟 类 课题 
汇编 语言 课题 
阅读 /报告 作业 
写作 作业 
试题 库 


A1 交互 式 模拟 

本 版 的 新 增 内 容 是 交互 式 模拟 。 这 些 模拟 为 理解 现代 计算 机 系统 的 复杂 设计 特征 提供 了 强 有 力 的 工具 。 
如 今 的 学 生 希 望 能 在 他 们 自己 的 电脑 屏幕 上 展示 各 种 复杂 的 计算 机 系统 机 制 。 总 计 20 个 模拟 用 来 说 明 计算 
机 组 成 和 体系 结构 设计 中 的 关键 功能 和 算法 。 本 书 中 在 相关 的 地 方 给 出 了 图 标 ， 表示 对 应 的 内 容 在 本 书 网 
页 上 有 相应 的 交互 式 模拟 可 供 学 生 使 用 。 

模拟 允许 用 户 设置 初 始 条 件 ， 因 此 这 些 模拟 可 以 作为 学 生 作 业 。 本 书 的 教师 资源 中 心 (Instructors Re- 
source Center, IRC) 提供 了 一 组 作业 ， 每 个 交互 式 模拟 一 个 。 每 份 作业 包括 若干 问题 ， 可 以 布置 给 学 生 。 

交互 式 模拟 由 马萨诸塞 大 学 电气 和 计算 机 工程 系 的 Israel Koren 教授 指导 开发 。 马 萨 诸 塞 大 学 的 Aswin 
Sreedhar 设计 了 交互 式 模拟 的 作业 。 


RA 计算 机 组 成 与 体系 结构 一 一 各 章 的 交互 式 模拟 
第 4 章 cache 存储 器 
























































高 速 缓存 模拟 器 根据 用 户 输入 的 高 速 缓存 模型 进行 小 容量 高 速 缓存 的 模拟 ， 根据 用 户 
输入 或 随机 生成 的 输入 序列 ， 在 模拟 周期 的 末尾 显示 高 速 缓存 的 内 容 
高 速 缓存 的 时 间 分 析 模 拟 展示 在 用 户 指定 的 参数 下 ， 高 速 缓存 的 平均 存 取 时 间 
多 任务 的 高 速 缓存 模拟 对 于 支持 多 任务 的 系统 上 的 高 速 缓存 建 模 
选择 性 的 Victim 高 速 缓存 模拟 器 比较 三 种 不 同 的 高 速 缓存 策略 
第 5 章 ”内 部 存储 器 
多 体 交 叉 存 储 器 模拟 器 展示 交叉 内 存 的 效果 
第 6 章 外 部 存储 器 
独立 磁盘 元 余 阵 列 (RAID) 模拟 器 确定 外 存 (Storage) 效率 和 可 靠 性 
第 7 章 输入 /输出 
VO 系统 设计 工具 评价 不 同 输入 /输出 系统 的 代价 和 性 能 
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( 续 ) 
第 8 章 操作 系统 支持 
页 替换 算法 模拟 器 | 比较 最 近 最 少 使 用 (LRU) 、 先 进 先 出 (FIFO) 和 最 优 奉 换算 法 
其 他 页 替换 算法 | KRES TRN 
第 12 章 CPU 结构 和 功能 
预约 表 模拟 器 | ”对 作为 一 种 流水 线 系统 任务 流 表 示 的 预约 表 进 行 评价 














分 支 预测 模拟 器 展示 三 种 不 同 的 分 支 预测 方案 
分 支 目标 缓冲 分 支 预 测 /分 支 目标 缓冲 的 集成 模拟 器 
第 13 章 “精简 指令 集 计算 机 
模拟 流水 线 
模拟 循环 展开 的 软件 技术 ， 循 环 展开 用 于 发 掘 指令 级 并 行 性 
第 14 章 指令 级 并 行 性 和 超标 量 处 理 器 
使用 租 态 /动态 指 人 调度 的 流水 线 模拟 器 MIPS 六 水 线 更 为 复杂 的 模 所 
重 排序 缓冲 器 模拟 器 模拟 RISC 流水 线 中 的 指令 重 排序 
记分 牌 模拟 器 | 模拟 用 于 不 少 处 理 器 中 的 一 种 指令 调度 技术 
Tomasulo 算法 模拟 器 模拟 指令 调度 的 另 一 种 技术 








MIPS R3000 五 级 流水 线 模拟 器 
循环 展开 模拟 器 



















































另 一 个 Tomasulo 算法 模拟 器 Tomasulo 算法 的 男 一 种 模拟 
第 17 Re 并 行 处 理 
向 量 处 理 器 模拟 器 展示 向 量 处 理 指令 的 执行 
A.2 研究 类 课题 


巩固 基本 概念 和 向 学 生 传授 研究 技巧 的 一 种 有 效 的 方式 是 ， 给 学 生 指派 研究 课题 。 这 种 课题 应 该 涉及 
文献 检索 、 产 品 的 万 维 网 检索 ， 实 验 室 的 研究 活动 和 标准 化 的 努力 。 课 题 应 该 指派 给 小 组 ， 简 单 的 课题 可 
指派 给 个 人 。 不 论 哪 种 情况 ， 最 好 尽快 要 求 递 交 某 种 课题 申请 ， 以 使 教师 有 充裕 的 时 间 评 价 学 生 的 选 题 是 
和 否 合 适 、 准 备 是 否 充分 。 课 题 的 学 生 公告 应 包括 : 课题 申请 格式 、 最 终 报告 格式 、 中 间 和 最 后 期 限 的 时 间 
表 、 课 题 可 选 题目 的 列表 。 

学 生 可 选择 所 列 的 题目 之 一 ， 也 可 提交 他 们 自己 拟定 的 程度 相当 的 课题 。 教 师资 源 中 心 提供 了 课题 申 
请 和 最 终 报 告 的 推荐 格式 ， 以 及 可 行 的 研究 课题 列表 。 


A.3 ”模拟 类 课题 
理解 处 理 器 的 内 部 操作 、 学 习 和 评价 某 些 设计 权衡 及 其 性 能 影响 的 最 好 方式 是 ， 模 拟 处 理 器 的 关键 部 
件 。SimpleScalar 和 SMP cache 是 服务 于 此 目的 的 两 个 有 用 工具 。 
与 实际 硬件 实现 相 比 ， 模 拟 为 研究 和 教学 提供 如 下 好 处 : 
© 模拟 很 容易 做 到 修改 一 个 组 织 的 不 同 元 素 ， 改 变 各 种 部 件 的 性 能 特征 ， 然 后 分 析 这 些 修 改 的 效果 。 
© 模拟 可 提供 详细 的 性 能 统计 资料 ， 这 些 有 助 于 对 性 能 权衡 的 理解 。 


SimpleScalar 


SimpleScalar [BURG97, MANJ01a, MANJO1b] 是 一 组 工具 软件 ， 它 们 可 用 于 当代 处 理 器 和 系统 上 模拟 
实际 程序 的 运行 。 这 组 工具 软件 包括 编译 器 、 汇 编 器 、 链 接 器 以 及 模拟 与 可 视 化 工具 。SimpleScalar 提供 的 
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处 理 器 模拟 器 ， 包 括 从 极其 快速 的 功能 模拟 器 到 详细 的 乱 序 发 射 的 超标 量 处 理 器 的 模拟 器 ， 后 者 能 支持 无 
阻塞 的 cache 和 猜测 执行 。 指 令 集体 系 结构 和 组 成 的 参数 可 修改 ， 以 进行 各 种 实验 。 

本 书 的 教师 资源 中 心 提 供 了 SimpleScalar 的 简要 介绍 ， 它 指导 学 生 如 何 安装 和 启动 SimpleScalar。 手 册 
还 包括 了 一 些 推荐 的 课题 作业 。 

SimpleScalar 是 一 款 可 运行 于 大 多 数 Unix 平台 上 的 可 移植 软件 包 。 可 从 SimpleScalar 官方 网 站 下 载 此 软 
件 ， 非 商业 用 途 可 免费 使 用 。 


SMP cache 


SMP cache 是 一 款 踪迹 驱动 的 模拟 器 ， 用 于 对 称 多 处 理 器 上 的 高 速 缓存 系统 的 分 析 与 教学 [RODRO1 ] 。 
该 模拟 器 根据 建立 在 这 些 系统 的 体系 结构 基本 原理 上 的 模型 进行 模拟 。 它 具有 用 户 友 好 的 全 图 形 界面 。 利 
用 该 模拟 器 能 学 习 的 内 容 包 括 : 程序 局 部 性 行为 、 处 理 器 数目 的 影响 、cache 一 致 性 协议 、 总 线 仲裁 策略 、 
映射 、 蔡 换 策略 、 高 速 缓存 大 小 〈 高 速 缓存 中 块 数 ) 、 高 速 缓存 组 数 〈 针 对 组 相 联 高 速 缓存 ) 、 每 块 的 字数 
(存储 器 块 的 大 小 ) 。 

本 书 的 教师 资源 中 心 提 供 了 SMP cache 的 简要 介绍 ， 它 指导 学 生 如 何 安 装 和 启动 SMP cache。 手 册 中 还 
包括 一 些 推荐 的 课题 作业 。 

SMP cache 是 一 款 可 在 装 有 Windows 操作 系统 的 个 人 电脑 上 运行 的 可 移植 软件 包 ， 可 从 SMP cache 官方 
网 站 下 载 此 软件 ， 非 商业 用 途 可 免费 使 用 。 


A.4 汇编 语言 课题 

汇编 语言 程序 设计 通常 用 于 教授 学 生 底层 硬件 部 件 和 计算 机 系统 结构 的 基础 知识 。CodeBlue 是 美国 空 
军 科 学 院 (U.S. Air Force Academy) 开发 的 一 种 简化 的 汇编 语言 程序 ， 目 的 在 于 利用 可 视 化 的 模拟 器 ， 帮 
助 学 生 在 一 课时 内 了 解 和 学 习 汇 编 语言 的 概念 。CodeBlue 的 开发 人 员 也 希望 通过 这 个 简化 的 汇编 语言 使 学 
生 们 对 使 用 汇编 语言 更 感 兴趣 。CodeBlue 汇编 语言 比 其 他 简化 的 机 器 指令 集 (如 SC123 ) ， 更 为 简单 ， 但 学 
生 们 使 用 它 还 是 能 开发 出 有 意思 的 汇编 级 程序 ， 并 进行 比赛 ， 其 能 力 与 远 为 复杂 的 SPIMbot 模拟 器 相当 。 
最 重要 的 是 ,通过 CodeBlue 编程 ， 学 生 们 可 以 学 到 计算 机 系统 结构 的 基本 概念 ， 例 如 指令 和 数据 在 内 存 中 
的 编排 ,程序 控制 结构 的 实现 ， 以 及 各 种 寻 址 方式 等 。 

为 了 便于 课题 的 设计 ，CodeBlue 的 开发 人 员 提 供 了 一 个 可 视 化 的 开发 环境 ， 以 便 学 生 们 创建 自己 
的 程序 ， 查 看 代码 在 内 存 中 的 表示 ， 单 步 执 行程 序 ， 并 在 虚拟 内 存 环 境 中 模拟 不 同 对 战 程序 之 间 的 
战斗 。 

设计 课题 可 以 利用 “核心 大 战 ”( Core War) 的 概念 来 组 织 。 核 心 大 战 是 20 世纪 80 年 代 早期 出 现 的 一 
种 程序 设计 比赛 ， 并 持续 流行 了 大 约 15 年 之 入。 核心 大 战 包括 4 大 主要 要 素 : 一 个 包含 8000 个 地 址 的 内 
存 空间 ， 一 个 简化 的 汇编 语言 Redcode， 一 个 叫做 MARS (Memory Array Redcode Simulator) 的 可 执行 程序 ， 
以 及 一 组 相互 对 战 的 程序 。 核 心 大 战 的 过 程 是 ， 两 个 对 战 程序 被 装载 到 随机 选择 的 内 存 地 址 上 ; 对 战 程序 
相互 之 间 不 知道 另 一 个 程序 在 内 存 什么 位 置 。MARS 以 一 种 简单 的 方式 分 时 执行 各 个 程序 的 代码 ， 两 个 对 
战 程序 交替 执行 : 首先 第 一 个 程序 的 一 条 指令 被 执行 ， 然 后 第 二 个 程序 的 一 条 指令 被 执行 ， 循 环 往复 。 每 
个 对 战 程序 在 所 分 配 的 执行 周期 中 做 什么 事情 则 完全 由 程序 设计 者 决定 。 程 序 的 目标 是 通过 破坏 另 一 个 程 
序 的 指令 ， 从 而 摧毁 另 一 个 程序 的 执行 。CodeBlue 与 核心 大 战 不 同 之 处 就 是 ， 用 CodeBlue 交互 式 执行 界面 
替代 了 Redcode。 

教师 资源 中 心 提 供 了 CodeBlue 执行 环境 、 学 生 使 用 手册 以 及 其 他 的 支持 资料 和 建议 的 课程 作业 。 

A.5 阅读 /报告 作业 
男 一 种 强化 课程 概念 和 给 学 生 某 些 研究 经 验 的 好 方式 是 ， 要 求学 生 阅 读 并 分 析 文 献 中 的 论文 。 教 师资 


源 中 心中 提供 了 推荐 的 论文 列表 ， 每 章 一 或 两 篇 文章 。 所 有 的 这 些 文章 可 在 教师 资源 中 心 下 载 。 教 师资 源 
中 心 也 提供 了 这 些 作业 的 建议 。 


A6 ”写作 作业 
写作 作业 对 于 工程 技术 类 专业 的 学 习 过 程 而 言 ， 如 数据 通信 和 网 络 工程 ， 是 一 个 有 力 的 效果 倍增 器 。 
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“ 跨 课 程 写作 (Writing Across Curiculum) ”运动 (http: //wac.colostate.edu/) 的 支持 者 报告 描述 ， 写 作 作 
业 对 于 促进 学 习 有 着 显著 的 好 处 。 写 作 作业 促使 学 生 对 特定 问题 进行 更 为 细致 和 全 面 的 思考 。 另 外 ， 写 作 
作业 有 助 于 解决 学 生 学 习 时 的 一 个 不 良 习惯 ， 即 总 是 倾向 于 花 最 少 的 努力 去 解决 一 个 问题 ,通常 表现 是 了 
解 了 一 些 问题 描述 和 求解 方法 后 ， 就 草草 收工 ， 而 不 求 甚 解 。 

教师 资源 中 心 提 供 了 一 些 建 议 的 写作 作业 ， 分 章 布置 。 教 师 可 能 会 发 现 这 是 教授 本 书 内 容 最 重要 的 资 
源 。 作 者 非常 感谢 对 此 提出 任何 反馈 意见 ， 并 提出 更 多 其 他 写作 作业 的 教师 。 


A.7 ”试题 库 


本 书 的 教师 资源 中 心 网 站 提供 了 针对 本 书 的 试题 库 。 对 于 书 中 的 每 一 章 ， 试 题库 提供 了 诸如 判断 题 、 
多 项 选择 题 、 填 空 题 等 题 型 的 习题 。 利 用 试题 库 ， 可 以 有 效 地 评估 学 生 对 书 中 内 容 的 掌握 情况 。 
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汇编 语言 及 相关 主题 


要 点 


。 汇编 语言 是 针对 特定 处 理 器 机 器 语言 的 符号 化 表示 ， 带 有 增强 了 的 附加 语 名 类型， 以便 程序 的 编写 
并 提供 控制 汇编 器 的 命令 。 

。 汇编 器 是 将 汇编 语言 转换 成 机 器 代码 的 程序 。 

® 产生 活动 进程 的 第 一 步 是 把 程序 装 入 主 存 并 且 创 建 一 个 进程 镜像 。 

。 链接 器 用 于 解决 被 装载 模块 之 间 的 所 有 引用 。 

汇编 语言 的 概念 在 第 11 章 进行 了 简单 的 介绍 ， 本 附录 提供 更 多 的 细节 并 且 涵 盖 了 很 多 相关 主题 。 为 什 
么 要 学 习 汇 编 语言 程序 (相对 其 他 高 级 语言 程序 ) 有 很 多 的 理由 ， 下 面 列 出 了 其 中 一 些 理由 : 

(1) 它 阐明 了 指令 的 执行 。 

(2) 它 表 明 数 据 在 内 存 中 是 如 何 表示 的 。 

(3) 它 显示 了 一 个 程序 如 何 与 操作 系统 、 处 理 器 、 输 入 输出 系统 交互 。 

(4) 它 阑 明 了 程序 如 何 访问 外 部 设备 。 

(5) 掌握 了 汇编 语言 编程 ， 可 以 使 学 生成 为 更 好 的 高 级 语言 程序 员 ， 因 为 他 们 能 更 好 地 理解 目标 语 
言 ， 而 每 个 高 级 语言 程序 最 终 都 要 翻译 为 对 应 的 目标 语言 执行 。 

我 们 将 从 汇编 语言 的 基本 要 素来 开始 这 章 的 学 习 ， 并 以 x86 体系 结构 作为 我 们 的 例子 。 然 后 我 们 将 
学 习 汇编 器 (Assembler) 的 操作 ， 接 下 来 再 讨论 链接 器 (Linker) 和 装载 器 (Loader) 。 

K B-1 定义 了 一 些 在 本 附录 中 使 用 的 关键 术语 。 


表 B-1 本 附录 中 使 用 的 关键 术语 


汇编 器 

将 汇编 语言 转换 成 机 器 代码 的 程序 。 

汇编 语言 

是 针对 特定 处 理 器 机 器 语言 的 符号 化 表示 ， 带 有 增强 了 的 附加 语句 类 型 ， 以 便 程序 的 编写 并 提供 控制 汇编 器 的 
命令 。 

编译 器 

编译 器 是 一 种 将 其 他 程序 从 源 程 序 (或 程序 设计 语言 ) 转化 到 机 器 语言 (目标 代码 ) 的 程序 。 一 些 编译 器 输出 
汇编 语言 ， 然 后 汇编 语言 被 单独 的 汇编 器 翻译 成 机 器 语言 。 编 译 器 与 汇编 嚣 不同， 通常 它 的 每 个 输入 语句 不 对 应 单 
一 机 器 指令 或 固定 的 指令 序列 。 编 译 器 可 能 支持 这 样 的 特征 : 自动 申请 变量 、 任 意 算术 表达 式 、 像 for 和 while 这 样 
的 循环 控制 结构 、 变 量 可 见 范围 、 输 入 /输出 操作 、 高 级 函数 以 及 源 代码 可 移植 性 。 

可 执行 代码 

由 源 语言 处 理 器 ( 比如 汇编 器 和 编译 器 ) 生成 的 机 器 代码 ， 是 一 种 可 以 在 计算 机 上 运行 的 软件 。 

指令 集 

特定 机 器 的 所 有 可 能 的 指令 集合 ， 它 是 特定 处 理 器 的 机 器 语言 指令 的 集合 。 

链接 器 

把 一 个 或 多 个 包含 目标 代码 的 文件 ， 从 已 编译 的 独立 的 模块 合并 为 可 装载 或 可 执行 的 单一 文件 的 实用 程序 。 

装载 器 

把 一 个 可 执行 程序 拷贝 到 内 存 执行 的 例 行 程序 。 

机 器 语言 或 机 器 代码 

实际 上 被 计算 机 读 取 和 执行 的 计算 机 程序 的 二 进 制 表示 。 机 器 代码 程序 由 一 系列 机 器 指令 〈 可 能 穿插 数据 ) 组 
成 。 指 令 是 大 小 相同 或 者 不 同 的 二 进 制 串 〈 例 如 ， 许 多 现代 RISC 微 处 理 器 的 一 个 32 位 字 ) 。 

目标 代码 

程序 源 代 码 的 机 器 语言 的 表示 。 目 标 代 码 由 编译 器 或 汇编 器 生成 ， 然 后 由 链接 器 转化 成 可 执行 代码 。 


O 有 很 多 针对 x86 的 汇编 器 。 我 们 的 例子 使 用 NASM (Netwide Assembler) ， 一 个 开放 源 代码 的 汇编 器 。 本 书 的 Web 
站 点 提供 了 NASM 使 用 手册 的 副本 。 
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B.1 汇编 语言 

汇编 语言 是 一 种 与 机 器 语言 只 有 一 步 之 遥 的 程序 设计 语言 。 通 常 ， 每 条 汇编 语言 指令 被 汇编 器 转换 成 
一 条 机 器 指令 。 汇 编 语 言 依赖 于 硬件 ， 每 种 处 理 器 都 有 一 种 不 同 的 汇编 语言 。 尤 其 是 ， 汇 编 语言 指令 能 指 
定 访问 处 理 器 的 特定 寄存 器 ， 可 使 用 处 理 器 的 所 有 操作 码 ， 并 使 用 处 理 器 的 不 同 寄存 器 的 位 长 和 机 器 语言 
的 操作 数 ， 因 此 一 位 汇编 语言 程序 员 必 须 懂 计算 机 体系 结构 。 

程序 员 很 少 用 汇编 语言 编写 应 用 程序 甚至 系统 程序 。 高 级 语言 提供 更 强 的 表达 力 和 简洁 性 ， 大 大 简化 
了 程序 员 的 任务 。 使 用 汇编 语言 而 不 是 高 级 语言 的 缺点 有 [FOG08a] : 

(1) 开发 时 间 。 用 汇编 语言 写 代 码 比 用 高 级 语言 写 代 码 要 花 更 长 的 时 间 。 

(2) 可 靠 性 和 安全 性 。 使 用 汇编 代码 更 容易 犯错 。 汇 编 器 不 检查 调用 约定 (calling conventions) 与 寄 
存 器 保存 约定 (register save conventions) 是 否 一 致 ， 也 不 会 检查 人 栈 (push) 和 出 栈 (pop) 指令 的 数量 对 
于 所 有 可 能 的 分 支 和 执行 路 径 都 一 样 。 在 汇编 代码 中 有 非常 多 类 似 的 可 能 出 错 之 处 ， 以 至 于 采用 汇编 语言 
会 影响 项 目的 可 靠 性 和 安全 性 ， 除 非 你 有 一 种 非常 系统 的 方法 去 测试 和 验证 汇编 语言 程序 。 

(3) 调试 和 验证 。 汇 编 代 码 更 难于 调试 和 验证 ， 因 为 它 比 高 级 语言 代码 有 更 多 可 能 的 错误 。 

(4) 可 维护 性 。 汇 编 代 码 更 难 修改 和 维护 ， 因 为 汇编 语言 允许 出 现 意 大 利 面条 式 的 非 结构 化 代码 以 及 
各 种 让 人 难以 理解 的 技巧 。 因 此 详细 的 文档 和 一 致 的 编程 风格 对 于 汇编 语言 程序 设计 来 说 是 十 分 必要 的 。 

(5) 可 移植 性 。 汇 编 代 码 是 基于 特定 平台 的 ， 将 其 移植 到 另 一 不 同 的 平台 是 困难 的 。 

(6) 系统 代码 能 使 用 其 内 建 函 数 ， 而 汇编 代码 不 能 。 最 优秀 的 现代 C++ 编译 器 具有 内 建 函 数 〈Intrin- 
sic function) 来 访问 系统 控制 寄存 器 和 其 他 系统 指令 。 当 内 建 函 数 可 用 时 ， 设 备 驱 动 程序 和 其 他 的 系统 代 
码 不 再 需要 使 用 汇编 代码 。 

(7) 应 用 代码 可 使 用 内 建 函数 或 向 量 类 取代 汇编 代码 。 最 好 的 现代 C++ 编译 器 具有 内 建 函 数 来 实现 向 
量 运 算 和 执行 其 他 特殊 指令 ,这些 内 建 函数 以 前 是 用 汇编 语言 编写 的 。 

(8) 近 些 年 编译 器 的 功能 提高 了 很 多 。 如 今 最 好 的 编译 器 功能 很 强大 。 想 利用 汇编 语言 对 程序 进行 优 
化 ， 除 非 有 非常 丰富 的 专业 知识 和 实践 经 验 ， 否 则 不 会 比 最 好 的 C++ 编译 器 做 得 更 好 。 

但 是 偶尔 使 用 汇编 语言 仍 有 一 些 优点 ， 包 含 如 下 所 列 出 的 [FOG08a]: 

(1) 调试 与 验证 。 查 看 编译 器 产生 的 汇编 代码 或 调试 器 中 的 反 汇 编 窗口 ， 对 于 查 错 和 检验 编译 器 是 如 
何 优 化 一 段 特定 代码 是 非常 有 用 的 。 

(2) 编写 编译 器 。 理 解 汇编 语言 编码 技术 对 于 编写 编译 器 、 调 试 器 和 其 他 开发 工具 来 说 是 很 有 必 
要 的 。 

(3) 内 入 式 系统 。 小 型 嵌入 式 系统 的 软 硬 件 资源 远 比 个 人 计算 机 和 大 型 机 少 。 如 果 在 岩 入 式 系统 上 优 
化 代码 的 运行 时 间 和 存储 空间 ， 用 汇编 语言 编程 是 必需 的 。 

(4) 硬件 驱动 程序 和 系统 代码 。 访 问 硬件 、 系 统 控制 寄存 器 等 ， 可 能 有 时 候 很 难 或 者 不 能 使 用 高 级 程 
序 设 计 语 言 来 实现 。 

(5) 使 用 那些 从 高 级 程序 语言 中 无 法 访问 的 指令 。 一 些 特定 的 汇编 指令 是 没有 等 价 的 高 级 语言 形 
式 的 。 

(6) 自修 改 代码 。 通 常 而 言 ， 自 修改 代码 (self-modifying code) 并 不 是 很 有 用 ， 因 为 它 会 影响 代码 组 
存 的 运作 效率 。 不 过 ， 在 特定 条 件 下 ， 比 如 某 个 数学 程序 允许 用 户 定义 数学 函数 ， 这 些 数学 函数 要 被 计算 
多 次 ， 这 就 需要 一 个 小 型 编译 器 来 产生 相应 代码 ， 那 么 这 时 自修 改 代码 就 有 优势 了 。 

(7) 优化 代码 的 存储 空间 。 如 今 ， 存 储 器 是 如 此 便宜 ， 以 至 于 无 需 使 用 汇编 语言 来 减少 代码 存储 空 
间 。 但 是 ， 高 速 缓存 的 容量 仍 是 很 关键 的 资源 ， 因 此 ， 为 了 使 代码 的 存储 空间 适应 高 速 缓存 ， 使 用 汇编 语 
言 优化 一 些 关键 的 代码 片段 是 很 有 用 的 。 

(8) 优化 代码 的 运行 时 间 。 通 常 ， 现 代 C++ 编译 器 能 在 绝 大 多 数 情况 下 很 好 地 优化 代码 ， 但 仍 有 个 别 
情况 下 优化 得 很 糟 。 而 在 这 些 情况 下 ， 小 心 使 用 汇编 语言 编程 可 以 极 大 地 提升 〈 运 行 ) 速度 。 

(9) 函数 库 。 对 函数 库 的 代码 进行 优化 所 带 来 的 总 效益 ， 要 高 于 对 应 用 程序 代码 进行 的 优化 ， 因 为 函 
数 库 会 被 程序 员 大 量 使 用 。 

(10) 使 函数 库 能 和 多 种 编译 器 、 多 种 操作 系统 相 兼 容 。 通 过 为 函数 库 中 的 函数 建立 多 个 调用 入 口 ， 
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可 以 使 这 些 函 数 与 不 同 的 编译 器 和 不 同 的 操作 系统 相 兼容 。 而 这 就 需要 汇编 语言 编程 。 

汇编 语言 和 机 器 语言 有 时 候 被 错误 地 当 作 同义词 。 机 器 语言 是 由 能 被 处 理 器 直接 执行 的 指令 
组 成 。 每 一 条 机 器 指令 都 是 二 进 制 串 ， 它 包含 相关 的 操作 码 、 操 作 数 以 及 其 与 执行 相关 的 位 
(例如 标志 位 ) 。 为 了 方便 ， 可 以 将 操作 码 和 寄存 器 符号 化 来 取代 二 进 制 指令 。 汇 编 语 言 大 量 使 
用 符号 名 称 ， 包 括 给 特定 的 内 存 地 址 和 指令 地 址 分 配 名 称 。 此 外 ， 汇 编 语 言 还 包括 这 样 的 语句 ， 
它们 不 可 以 直接 执行 ， 但 可 以 作为 汇编 器 的 指令 ， 指 示 如 何 把 汇编 语言 程序 转换 为 机 器 代码 。 


B.1.1 汇编 语言 要 素 


典型 的 汇编 语言 语句 格式 如 图 B-1， 它 包含 四 个 组 成 部 分 : 标号 (Label) 、 助 记 符 〈Mnemonic) 、 操 作 
数 (Operand) 和 注释 (Comment) 。 





标号 助 记 符 操作 数 ; 注释 
u~ 1 EE \ -一 一 一 
可 选 操作 码 名 称 零 个 或 多 个 可 选 


或 
指导 命令 名 称 
或 
宏 名 称 





图 B-1 汇编 语言 语句 结构 


标号 ”如 果 标 号 存在 ， 汇 编 器 就 把 标号 定义 为 地 址 的 等 价 物 ， 该 地 址 为 此 标号 对 应 指令 的 地 址 ， 就 是 
这 条 指令 所 产生 的 目标 代码 第 一 个 字 节 被 装 人 内存 空 间 的 地 址 。 随 后 ， 程 序 员 可 能 使 用 标号 作为 地 址 或 者 
作为 数据 填 在 另 一 指令 的 地 址 字段 中 。 汇 编 器 把 汇编 程序 转换 为 目标 程序 时 ， 会 用 实际 地 址 值 蔡 换 掉 标 号 。 
标号 在 分 支 指令 中 使 用 得 最 频繁 。 

这 里 有 一 程序 片段 作为 例子 : 


L2: SUB EAX, EDX ; 寄存 器 EAX 的 值 减 去 寄存 器 EDX 的 值 ， 结 果 
; 存 入 寄存 器 EAX 
JG L2 ; 如 果 上 一 条 减法 指令 运算 结果 为 正 ， 则 跳 转 到 
; 标号 L2 的 地 址 执行 

程序 将 从 L2 开始 不 断 循环 ， 直 到 减法 指令 的 结果 为 零 或 负 。 因 为 ， 如 果 结 果 为 正 ， 当 jg 指令 被 执行 
时 ， 将 执行 跳 转 ， 处 理 器 会 将 标号 L2 对 应 的 地 址 放 和 人 程序 计数 器 中 ， 从 而 发 生 跳 转 。 

使 用 标号 的 理由 如 下 : 

(1) 标号 使 程序 中 指令 的 位 置 更 容易 找到 和 记 住 。 

(2) 当 修改 一 个 程序 导致 指令 移动 时 ， 标 号 名 称 可 以 保持 不 变 ， 但 地 址 变化 。 当 程序 被 重新 汇编 时 ， 
汇编 器 将 在 所 有 指令 中 自动 改变 标号 对 应 的 地 址 ， 从 而 反映 指令 的 移动 。 

(3) 程序 员 不 必 去 计算 相对 或 绝对 的 内 存 地 址 ， 而 只 需 使 用 标号 指 代 地 址 。 

助 记 符 ” 助 记 符 是 汇编 语言 语句 功能 或 者 操作 码 的 代 名 。 正 如 接 下 来 讨论 的 ， 一 条 汇编 语言 语句 可 以 
对 应 一 条 机 器 指令 、 一 条 汇编 指令 或 者 一 个 宏 。 就 机 器 指令 而 言 ， 助 记 符 是 和 特定 操作 码 相 关 的 符号 名 。 

# 10-8 列 出 了 很 多 x86 指令 助 记 符 或 者 指令 名 。 文 献 [CART06] 的 附录 A 列 出 了 x86 指令 和 每 条 指 
令 的 操作 数 ， 以 及 指令 执行 结果 对 条 件 码 的 影响 。NASM 使 用 手册 的 附录 B 提供 更 多 对 每 条 x86 指令 的 详 
尽 描述 。 这 些 资料 都 可 以 在 本 书 的 网 站 上 查 到 。 

操作 数 ”汇编 语言 语句 包括 零 个 或 更 多 操作 数 。 每 个 操作 数 可 以 是 一 个 立即 数 ， 或 一 个 寄存 器 值 ， 或 
一 个 内 存 地 址 。 通 常 ， 汇 编 语言 对 于 如 何 区 别 三 种 类 型 的 操作 数 ， 以 及 如 何 指定 寻 址 方式 制订 了 一 些 约定 。 

对 x86 体系 结构 ， 汇 编 语 言语 句 可 能 通过 名 字 来 标识 寄存 器 操作 数 。 图 B-2 显示 了 x86 通用 寄存 器 组 ， 
各 个 寄存 器 的 符号 名 ， 及 其 位 编码 。 汇 编 器 可 将 寄存 器 符号 名 转换 成 对 应 的 二 进 制 识别 码 。 

正如 第 11.2 节 所 讨论 的 ，x86 体系 结构 有 丰富 的 寻 址 方式 ， 每 种 寻 址 方式 在 汇编 语言 中 都 必须 符号 
化 表示 。 这 里 列举 一 些 常见 的 例子 ， 比 如 寄存 器 寻 址 方式 ， 通 过 在 指令 中 使 用 寄存 器 名 来 表示 。 例 如 ， 
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31 通用 寄存 器 0 16 位 ”32 位 

EAX(000) 
EBX(011) 
ECX(001) 
EDX(010) 
ESI(110) 
EDI(111) 
EBP(101) 
ESP(100) 





图 B-2 Intel x86 程序 运行 可 使 用 的 寄存 器 


MOV ECX, EBX， 该 指令 将 寄存 器 EBX 的 内 容 拷贝 到 ECX 中 。 对 于 立即 数 寻 址 方式 ， 立 即 数 的 值 直接 保 
存在 指令 编码 中 。 例 如 ，MOV EAX, 100H， 该 指令 将 十 六 进 制 值 100 拷贝 到 寄存 器 EAX 中 。 立 即 数值 
也 可 以 用 带 后 级 B 的 二 进 制 数 表示 或 者 没有 前 缀 的 十 进 制 数 表示 。 因 此 , MOV EAX, 100000000B 和 
MOV EAX, 256 以 及 MOV EAX, 100H 是 等 价 的 表示 。 对 于 直接 寻 址 方式 ， 指 令 需 要 指向 一 个 内 存 地 
址 ， 该 地 址 在 x86 中 以 相对 于 DS 段 寄存 器 的 偏 移 量 来 表示 。 下 面 的 例子 很 好 地 解释 了 直接 寻 址 方式 。 假 设 
16 位 数据 段 寄 存 器 DS 包含 值 1000H ， 而 我 们 准备 执行 下 列 指令 : 

MOV AX, 1234H 

MOV [3518H], AX 

首先 16 位 寄存 器 AX 初始 化 为 1234H， 然 后 ， 在 第 二 行 ，AX 的 内 容 被 移动 到 逻辑 地 址 DS:3518H。 这 
个 地 址 是 这 样 形成 的 ， 把 DS 的 内 容 左 移 4 位 加 上 3518H 形成 32 位 逻辑 地 址 13518H。 

注释 ”所 有 汇编 语言 都 允许 在 程序 中 添加 注释 。 注 释 可 以 放 在 汇编 语句 的 右边 ， 也 可 以 单独 占据 整个 
文本 行 。 无 论 哪 种 情况 ， 注 释 都 开始 于 一 个 特殊 的 字符 ， 该 字符 告诉 汇编 器 ， 该 行 的 其 余部 分 是 注释 ， 这 
些 注释 也 就 会 被 汇编 器 忽略 。 通 常 ，x86 体系 结构 的 汇编 语言 使 用 分 号 G) 作为 注释 符 。 


B.1.2 汇编 语言 语句 的 类 型 

汇编 语言 语句 有 四 种 类 型 : 指令 ， 指 导语 名 (directives) ， 宏 定义 (macro definition) ， 注 释 。 注 释 语句 
就 是 整个 语句 都 是 注释 的 语句 。 本 节 将 简单 介绍 其 他 类 型 的 语句 。 

指令 在 汇编 语言 程序 中 ， 大 部 分 非 注释 语句 都 是 指令 语句 ， 即 机 器 语言 指令 的 符号 化 表示 。 几 乎 没 
有 例外 ， 汇 编 语 言 指令 和 机 器 语言 指令 一 一 对 应 。 汇 编 器 可 解析 各 种 符号 引用 ， 并 且 把 汇编 语言 指令 转化 
成 组 成 机 器 指令 的 二 进 制 串 。 

指导 语句 ”指导 语句 又 叫 伪 指令 (pseudo - instruction) ， 这 些 汇 编 语 言语 句 不 能 被 直接 转换 成 机 器 指 
令 。 不 过 ， 指 导语 句 作 为 给 汇编 器 的 命令 ， 指 示 了 汇编 器 在 汇编 过 程 中 要 进行 的 一 些 特殊 操作 。 下 面 是 些 
特殊 操作 的 例子 : 

。 定义 常量 

。 指定 数据 存储 的 内 存 区 域 

。 初始 化 内 存 区 域 


MRB 汇编 语言 及 相关 主题 459 


。 将 表 或 其 他 固定 数据 放置 在 内 存 中 
。 允许 对 其 他 程序 引用 
表 B-2 列 出 了 一 些 NASM 伪 指 令 。 作 为 一 个 例子 ， 考虑 下 面 的 语句 序列 : 


L2 DB aad ;初始 化 为 ASCII 码 A (65 ) 的 字 节 常量 
MOV AL, [L1] ;把 位 于 L1 的 字 节 内 容 拷贝 到 AL 
MOV EAX,L1 ;把 L1 对 应 的 地 址 存储 到 EAX 


MOV [L1],AH ;把 AH 的 内 容 拷贝 到 位 于 L1 的 字 节 中 
表 B-2 — NASM 汇编 语言 伪 指 令 
a) RESx 和 Dx 伪 指 令 字母 
单位 字母 











字 节 B 
F OFP) W 
双 字 (4 字 节 ) D 
Q 
T 

















四 字 (8 字 节 ) 
十 字 节 








b) 伪 指 令 
描述 | 例子 















名 称 





DB, DW, 


L6 DD 1A92H 
DD, DQ, 


初始 化 的 内 存 位 置 ;位 于 L6 的 双 字 初 始 化 为 1A92H 





BUFFER RESB 64 


RESD, ;以 BUFFER 为 起 始 位 置 , 预 留 64 字 节 


RESQ, 
REST 


预 留 不 进行 初始 化 的 内 存 位 置 








在 汇编 器 最 后 输出 的 目标 文件 中 插入 INCBIN “file.dat” 
指定 的 二 进 制 文件 ;包含 "file .dat "这 个 文件 


INCBIN 








MSGLEN EQU 25 


;常量 MSGLEN 等 于 十 进 制 25 


ZEROBUF TIMES 64 DB 0 
;把 64 字 节 缓存 初始 化 为 0 


把 符号 定义 为 常量 值 





重复 若干 次 指令 





如 果 标 号 被 使 用 ， 它 解释 为 数据 的 地 址 (或 偏 移 量 ) 。 如 果 标 号 被 放 在 方 括号 里 ， 它 被 解释 为 这 个 地 
址 的 数据 。 

宏 定 义 ” 宏 定义 在 好 几 个 方面 类 似 于 子 程序 ( subroutine) 。 一 个 子 程序 是 一 个 程序 段 ， 这 个 程序 段 写 
一 次 能 使 用 多 次 ， 子 程序 能 从 程序 的 任何 地 方 调用 。 当 程序 被 编译 或 汇编 ， 子 程序 仅 被 装载 一 次 。 与 子 程 
序 类 似 ， 宏 定义 也 是 程序 员 可 以 写 一 次 能 使 用 多 次 的 代码 段 。 子 程序 和 宏 定义 主要 的 不 同 在 于 ， 当 汇编 器 
过 到 一 个 宏 调用 ， 它 用 宏 本 身 来 取代 宏 调用 ， 这 个 过 程 称 作 宏 扩展 (macro expansion ) 。 因 此 ， 如 果 一 个 宏 
在 一 段 汇编 语言 程序 中 被 定义 并 且 被 调用 10 次 ,那么 宏 的 10 个 实体 将 在 汇编 代码 中 出 现 。 本 质 上 ， 子 程 
序 在 运行 时 由 硬件 处 理 ， 而 宏 由 汇编 器 在 汇编 的 时 候 处 理 。 就 模块 化 程序 而 言 ， 宏 提供 了 和 子 程序 一 样 的 
优点 ， 但 是 没有 子 程序 被 调用 和 返回 的 运行 开销 。 缺 点 是 宏 在 目标 代码 中 消耗 了 更 多 的 空间 。 

在 NASM 和 很 多 其 他 汇编 器 中 ， 有 单行 (single-line) 宏和 多 行 (multiple-line) 宏 区 别 。 在 NASM 中 ， 
用 % DEFINE 伪 指 令 定义 单行 宏 。 下 面 的 例子 展示 了 单行 宏 及 其 扩展 。 首 先 ， 定 义 两 个 宏 : 
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% DEFINE B (X) =2 *X 
% DEFINE A(X) =1 + B(X) 
在 汇编 语言 程序 中 某 处 可 能 有 下 面 的 语句 : 
MOV AX, A(8) 
汇编 器 会 把 这 个 语句 扩展 成 : 
MOV AX, 1+2%*8 
在 汇编 时 ， 这 条 语句 将 被 转换 为 机 器 指令 ， 它 把 立即 数 17 赋 给 寄存 器 AX。 
多 行 宏 用 助 记 符 &MACRO 定义 。 下 面 是 一 个 多 行 宏 定义 的 例子 : 
%MACRO PROLOGUE 1 
PUSH EBP ;把 EBP 的 内 容 放 人 
;由 ESP 指向 的 栈 顶 ， 
;并 且 ESP 的 内 容 减 4 
MOV EBP, ESP ;ESP 的 内 容 拷贝 给 EBP 
SUB ESP, %1 ;从 ESP 中 减 去 该 宏 第 一 个 参数 的 值 
在 $MACRO 行 宏 名 后 的 数字 1 定义 宏 希 望 接收 的 参数 数目 。 在 宏 定义 里 使 用 $1 表示 宏 调用 的 第 一 个 


参数 。 

宏 调 用 

MYFUNC: PROLOGUE 12 
将 被 扩展 成 下 面 几 行 代码 : 


MYFUNC: PUSH EBP 
MOV EBP, ESP 
SUB ESP, 12 


B13 示例 : 最 大 公约 数 程序 


作为 使 用 汇编 语言 的 例子 ,我 们 看 一 个 计算 两 个 整数 的 最 大 公约 数 的 程序 。 我 们 定义 整数 a Alb RK 
公约 数 如 下 : 
gcd(a,b) =max(k,a BREA H b ERK] 
所 谓 a 整除 上 ， 就 是 说 a 除 以 & 不 会 有 余数 。 求 最 大 公约 数 的 欧 几 里 得 (Euclid) 算法 基于 下 述 定理 。 
对 任何 非 负 整数 a 和 65， 有 
gcd(a,b) =gcd(b,a mod b) 
下 面 是 实现 欧 几 里 得 算法 的 C 程序: 


unsigned int gcd (unsigned int a, unsigned int b ) 
{ 
if (a ==0&&b ==0) 
bai; 
else if (b==0) 
b=a; 
else if (a!=0) 
while (a!=b) 
if (a<b) 
b-=a; 
else 
a-=b; 
return b; 
} 


图 B-3 显示 了 上 面 程序 的 两 个 汇编 语言 版 本 。 左 边 程序 是 C 编译 器 生成 的 ; 右边 程序 是 直接 手写 的 汇 
编 语言 。 后 者 使 用 了 大 量 编程 技巧 ， 使 程序 更 紧凑 ， 执 行 更 有 效 。 
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gcd: move ebx, eax gcd; neg eax 
move eax, edx je L3 
test ebx, ebx Li: neg eax 
jne L1 xchg eax, edx 
test edx, edx L2: sub eax, edx 
ine L1 jg L2 
mov eax, 1 jne L1 
ret L3; add eax. edx 
Ll: test eax, eax jne L4 
jne L2 inc eax 
mov eax, ebx L4; ret 
ret 
L2 : test ebx , ebx 
je L5 
L3: cmp ebx, eax 
je L5 
jae L4 
sub eax, ebx 
jmp L3 
L4; sub ebx, eax 
jmp L3 
L5; ret 
a) 编译 器 生成 的 程序 b) 用 汇编 语言 直接 手工 编写 


图 B-3 求 最 大 公约 数 的 汇编 程序 


B.2 汇编 器 

汇编 器 是 一 个 以 汇编 语言 程序 为 输入 ， 输 出 目标 代码 (object code) 的 应 用 程序 。 目 标 代码 是 二 进 制 
文件 ， 汇 编 器 把 这 个 文件 看 作 从 地 址 0 开始 的 内 存 块 。 

汇编 器 有 两 种 设计 方式 : 两 趟 (two-pass) 汇编 器 和 单 趟 (one-pass) 汇编 器 。 


B.2.1 两 趟 汇编 器 


我 们 先 看 下 两 趟 汇编 器 ， 它 更 通用 且 更 易 理 解 。 两 趟 汇编 器 扫描 源 代 码 两 次 来 生成 目标 代码 ( 见 图 B-4) 。 

第 一 趟 ”在 第 一 趟 中 ， 汇 编 器 仅 处 理 标号 的 定义 。 汇 编 器 扫描 源 代 码 ， 建 立 符号 表 (symbol table), 
符号 表 中 包含 所 有 标号 和 标号 位 置 计数 器 (location counter, LC) 的 值 。 目 标 代码 第 一 字 节 初始 化 为 LC = 
0。 在 第 一 遍 扫描 中 ， 汇 编 器 检查 每 条 汇编 语句 。 虽 然 此 时 汇编 器 不 准备 转换 指令 ， 但 它 还 是 要 充分 检查 每 
条 指令 来 确定 每 条 机 器 指令 的 长 度 ， 从 而 确定 LC 的 增 量 。 这 可 能 不 仅 要 检查 操作 码 ， 而 且 要 查看 操作 数 
和 寻 址 方式 。 

像 DQ 和 REST 这 样 的 伪 指令 〈 见 表 B-2) ,它们 指定 了 要 预 留 多 少 内 存 空间 ， 因 此 位 置 计数 器 LC 会 按 
照 这 些 伪 指 令 指定 的 内 存 空间 大 小 进行 累加 。 

当 汇 编 器 遇 到 有 标号 的 语句 的 时 候 ， 它 把 标号 和 当前 LC 的 值 放 入 符号 表 。 汇 编 器 会 继续 扫描 完 所 有 
汇编 语句 ， 并 对 所 有 遇 到 的 标号 做 同样 操作 。 

第 二 趟 ”第 二 趟 扫描 时 ， 汇 编 器 又 从 头 至 尾 地 把 源 程 序 读 一 遍 。 每 一 条 指令 都 翻译 为 对 应 的 二 进 制 机 
器 指令 。 翻 译 过 程 包 括 如 下 操作 : 

(1) 把 助 记 符 翻译 为 二 进 制 操作 码 。 

(2) 用 操作 码 决定 指令 的 格式 ， 以 及 指令 中 各 个 字段 的 位 置 和 长 度 。 
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B-4 两 趟 汇编 器 流程 图 
(3) 把 每 一 个 操作 数 名 称 翻 译 为 对 应 的 寄存 器 或 内 存 代码 。 
(4) 把 每 一 个 立即 数 转化 为 二 进 制 串 。 
(5) 利用 符号 表 把 任何 对 标号 的 引用 转换 为 对 应 的 LC 值 。 
(6) 在 指令 中 设置 其 他 任何 需要 的 二 进 制 位 ， 包 括 寻 址 方式 指示 位 、 条 件 码 位 等 。 
以 图 B-5 中 的 ARM 汇编 语言 指令 为 例 ，ARM 汇编 语言 指令 ADDS 13, 3, #19 转换 为 了 二 进 制 机 器 指 
Æ 1110 0010 0101 0011 0000 0001 0011, 


一 直 常用 更 新 条 
的 条 件 码 件 标志 FHA 


ADDS r3, r3, #19 





带 立即 数 的 数据 gem 
处 理 指令 格式 [一 





ERE 
27 26 2 


图 B-5 把 ARM 汇编 指令 翻译 为 二 进 制 机 器 指令 
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第 零 趟 (zeroth pass) ” 绝 大 多 数 的 汇编 语言 具有 定义 宏 的 功能 。 如 果 汇 编程 序 中 定义 了 宏 ， 那么 汇编 
器 必须 要 在 第 一 趟 扫描 前 还 多 加 一 次 扫描 ， 以 便 处 理 所 有 的 宏 。 因 此 ， 汇 编 语言 通常 都 要 求 把 宏 定义 置 于 
程序 文件 的 开头 。 i 

汇编 程序 在 第 零 趟 遍历 中 会 读 取 所 有 的 宏 定义 。 一 旦 所 有 的 宏 都 被 识别 后 ， 汇 编 器 就 继续 扫描 源 代 码 ， 
每 当 遇 到 宏 调用 时 ， 就 按照 调用 的 参数 把 宏 展开 。 这 个 宏 处 理 的 遍历 过 程 最 后 生成 了 一 份 新 的 源 代码 ， 其 
中 所 有 的 宏 调 用 都 被 展开 ， 而 程序 开头 的 所 有 宏 定 义 就 都 可 以 删除 了 。 


B.2.2 单 趟 汇编 器 


实现 一 个 只 对 源 代码 做 一 次 扫描 的 汇编 器 是 可 以 做 到 的 (不 包括 宏 遍 历 ) 。 单 趟 汇编 器 的 主要 困难 是 
对 标号 的 提前 引用 (forward reference)。 指 令 中 操作 数 使 用 的 标号 ， 可 能 是 在 已 扫描 的 源 代码 中 还 未 定义 的 
符号 。 因 此 ， 汇 编 器 不 能 确定 在 翻译 指令 时 ， 应 该 插入 的 相对 地 址 是 什么 。 

从 根本 上 来 说 ， 解 决 提前 引用 的 过 程 是 这 样 的 : 当 汇编 器 遇 到 了 一 个 未 定义 的 指令 操作 数 符号 ， 那 汇 
编程 序 就 会 采取 如 下 步 又 。 

(1) 在 翻译 二 进 制 指令 时 将 指令 操作 数字 段 全 部 置 空 〈 全 零 ) 。 

(2) 把 作为 操作 数 的 符号 输入 到 符号 表 中 。 符 号 表 的 对 应 项 标记 这 个 符号 是 未 定义 的 。 

(3) 把 涉及 未 定义 符号 操作 数 的 指令 的 地 址 ， 添 加 到 一 个 与 符号 表 对 应 项 相关 的 提前 引用 列表 中 。 

当 在 后 续 扫 描 中 遇 到 一 个 符号 定义 时 ， 即 可 确定 与 它 有 关 的 位 置 计 数 器 LC 值 。 汇 编程 序 把 LC 值 插入 
到 符号 表 中 的 该 符号 对 应 的 项 。 如 果 有 和 该 符号 相关 的 提前 引用 表 ， 那 么 汇编 程序 就 在 以 前 生成 的 指令 中 
的 合适 位 置 插入 该 符号 的 地 址 。 


B.2.3 示例 : 求 素数 程序 


现在 我 们 来 看 一 个 带 指导 语句 (directives) 的 例子 。 这 个 程序 用 于 查找 素数 。 素 数 是 只 能 被 1 和 自身 
整除 的 数 。 没 有 现成 的 公式 可 以 用 来 查找 素数 。 这 个 程序 所 采用 的 基本 方法 是 对 于 一 个 给 定 的 上 限 ， 找 到 
在 上 限 之 下 所 有 奇数 的 因子 。 如 果 奇 数 没 有 因子 ， 那 么 该 奇数 就 是 素数 。 图 B-6 用 C 语言 展示 了 其 基本 算 
法 ,图 B-7 使 用 NASM 汇编 语言 展示 了 同样 的 算法 。 


unsigned guess; /* 当前 考察 是 否 为 素数 的 数 */ 
unsigned factor; 上 # 当前 被 考察 数 的 可 能 的 因子 */ 
unsigned limit; 上 # 以 该 值 为 寻找 素数 的 上 限 */ 


printf (“Find primes up to : ”); 


scanf (“%$u”, &limit); 


printf ("2\n"); /* 对 于 最 开始 的 2 和 3 这 两 个 素数 */ 
DINCE. (S3 NAN? /* 做 特殊 处 理 */ 


guess = 5; /* 从 5 开始 进行 考察 */ 
while (guess < = limit) { A 寻找 当前 被 考察 数 的 因子 */ 
factor = 3; 
while (factor * factor < guess && guess% factor != 0) 
factor + = 2; 
if (guess % factor != 0) 
printf (“%d\n”, guess); 
guess += 2; * 只 考虑 奇数 #/ 





图 B-6 求 素数 的 C 程序 
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%include “asm_io.inc” 
segment .data 


segment .bss 
Limit resd 1 
Guess resd 1 


segment .text 

global _asm_main 
_asm_main: 

enter 0,0 

pusha 





mov eax, Message 
call print_string 
call read_int 

mov [Limit], eax 
mov eax, 2 

call print_int 
call print_nl 

mov eax, 3 

call print_int 
call print_nl 





mov dword [Guess], 5 
while_limit: 

mov eax, [Guess] 

cmp eax, (|Limit) 

jnbe end_while_limit 


mov ebx, 3 
while factor: 
mov eax, ebx 
mul eax 
jo end_while_factor 
cmp eax, [Guess] 
jnb end_while_factor 
mov eax, [Guess] 
mov edx,0 
div ebx 
cmp edx, 0 
je end_while_factor 





add ebx,2; factor += 2; 

jmp while_factor 
end_while_factor: 

je end_if 

mov eax, [Guess] 

call print_int 

call print_nl 
end_if: 

add dword [Guess], 2 

jmp while_limit 
end_while_limit: 


popa 

mov eax, 0 
leave 

ret 





Message db “Find primes up to: 


以 此 为 寻找 素数 的 上 限 
当前 考察 的 数 


程序 运行 的 启动 例 程 


scanf (“%u”, & limit); 


; printf(“2\n"); 


$ printf ("3\n") 7 


; Guess = 5; 
; while (Guess <= Limit) 


因为 使 用 了 无 符号 整数 ， 故 此 处 使 用 jnbe 


; ebx 保存 可 能 的 因子 ， 此 处 相当 于 factor=3; 


edx:eax = eax*eax 


如 果 上 一 条 乘法 指令 的 运算 结果 超出 了 eax 的 位 宽 


如 果 !(factor * factor<guess) 


; edx=edx:eax% ebx 


; 如 果 ! (guess% factor !=0) 


; 如 果 ! (guess% factor !=0) 
; printf (“su\n”) 


guess += 2 


; 退出 返回 C 

















图 B-7 求 素数 的 汇编 程序 


B.3 ”装载 和 链接 


创建 一 个 活动 进程 (active process) 的 第 一 步 是 装载 一 个 程序 到 主 存储 器 ， 并 创建 一 个 进程 映像 
(process image， 见 图 B-8) 。 图 B-9 描述 了 对 于 大 多 数 系统 来 说 典型 的 链接 和 装载 过 程 。 图 中 的 应 用 程序 由 
许多 不 同 的 模块 组 成 ， 这 些 模块 的 目标 代码 或 者 通过 编译 生成 ， 或 者 通过 汇编 生成 。 链 接 器 将 这 些 模块 链 
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接 起 来 ， 解 决 模块 之 间 的 相互 调用 。 如 果 这 些 模 块 中 还 有 对 于 库 例 程 (library routine) 的 调用 ,链接 器 也 
会 对 此 进行 解析 。 库 例 程 的 代码 可 能 成 为 最 后 可 执行 程序 的 一 部 
分 ， 也 可 能 作为 运行 时 被 操作 系统 装载 的 共享 代码 被 调用 。 在 本 
节 ， 我 们 会 介绍 链接 器 和 装载 器 的 主要 功能 。 首 先 ， 我 们 讨论 重 
定位 (relocation) 的 概念 4 接 下 来 ， 为 清楚 起 见 ， 我 们 描述 一 
单一 程序 模块 程序 执行 时 的 装载 情况 ， 此 时 不 需要 用 到 链接 。 然 
后 ， 我 们 再 考察 同时 涉及 链接 和 装载 的 情况 。 


B.3.1 重 定位 


在 多 道 程 序 (multiprogramming) 系统 中 ， 可 用 的 主 存 通 常 被 
多 个 进程 共享 。 通 常 来 说 ,程序 员 不 可 能 事先 知道 ， 在 运行 自己 
的 程序 时 ， 主 存 中 还 驻 留 有 哪些 其 他 的 程序 。 另 外 ， 为 了 能 充分 
利用 处 理 器 ， 多 道 程序 系统 都 能 够 把 活动 进程 调 (swap) A, 或 





主 存 中 的 


者 调 出 主 存 。 这 一 般 通 过 提供 一 个 大 的 进程 池 ， 其 中 存放 准备 好 进程 映像 
要 执行 的 进程 来 实现 。 一 旦 一 个 程序 被 调 出 主 存 到 硬盘 ， 那 么 很 


难保 证 在 下 一 次 把 这 个 程序 重新 调 人 主 存 时 ， 操 作 系统 还 把 它 放 ABS 装载 过 程 示意 图 








图 B-9 链接 与 装载 过 程 


置 到 上 次 调 出 前 所 在 的 主 存 位 置 。 相 反 ， 我 们 需要 能 够 把 这 个 进程 重新 定位 到 新 的 主 存 位 置 上 。 

因此 ， 我 们 事先 无 法 确定 一 个 程序 在 装 入 主 存 时 ， 它 会 被 放置 到 什么 位 置 。 我 们 必须 允许 程序 在 被 调 
人 和 调 出 时 ， 被 操作 系统 移动 到 主 存 中 其 他 地 方 。 这 些 事实 导致 了 一 些 技术 上 需要 考虑 的 问题 ， 如 图 B-10 
所 示 。 图 中 显示 了 一 个 进程 在 主 存 中 的 映像 。 简 单 起 见 ， 假 设 进程 映像 占据 了 主 存 中 一 段 连续 的 区 域 。 显 
然 ， 操 作 系统 需要 知道 进程 控制 信息 的 位 置 ， 程 序 运行 栈 的 位 置 ， 以 及 该 进程 开始 执行 的 人 口 地 址 。 因 为 
操作 系统 管理 着 全 部 存储 器 ， 而 且 负 责 把 进程 导入 到 主 存 中 ， 所 以 这 些 地 址 信息 对 于 操作 系统 而 言 是 容易 
获得 的 。 不 过 ， 处 理 器 必须 解决 程序 自身 内 部 的 内 存 地 址 引用 。 就 像 分 支 指令 ， 其 中 包含 了 在 分 支 跳 转 时 
要 执行 的 下 一 条 指令 的 地 址 。 而 数据 访问 指令 中 可 能 包含 被 访问 数据 的 字 节 或 字 地 址 。 因 此 ， 处 理 器 硬件 
和 操作 系统 软件 必须 能 够 根据 当前 程序 在 主 存 中 的 位 置 ， 把 程序 代码 中 对 内 存 中 指令 和 数据 的 引用 ， 翻 译 
为 真实 的 物理 内 存 地 址 。 


B.3.2 装载 


在 图 B-9 中 ， 装 载 器 把 装载 模块 放置 在 内 存 中 以 « 为 起 始 的 地 址 上 。 在 装载 程序 的 过 程 中 ， 图 B-10 中 
显示 的 进程 寻 址 要 求 必 须 满足 。 一 般 有 三 种 方法 可 供 选 择 : 绝对 装载 、 可 重 定位 装载 、 动 态 运行 时 装载 。 
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绝对 装载 ”绝对 装载 器 要 求 给 定 的 装载 模块 始终 被 载 人 到 内 存 中 的 相同 位 置 。 因 此 ， 呈 现在 装载 器 中 
的 装载 单元 ， 其 地 址 必须 是 明确 的 ， 或 者 说 是 。 yer 
绝对 的 内 存 地 址 。 例 如 ， 如 果 在 图 B-9 中 的 。 制 信息 
地 址 是 1024, 那么 ,在 装 人 内 存 的 装载 模块 
中 ， 首 个 字 的 地 址 是 1024。 

在 一 段 程序 内 的 内 存 引用 ， 其 特定 地 址 值 ett 
的 分 配 可 以 由 程序 员 或 编译 时 或 汇编 阶段 完成 ”增加 方向 
( 见 表 B-3a) 。 不 过 ， 由 程序 员 确定 地 址 分 配 的 
方法 有 几 个 缺点 。 首 先 ， 每 个 程序 员 得 知道 将 
模块 装 和 内存 的 预期 的 分 配 策略 。 其 次 ， 如 果 
程序 有 任何 涉及 在 模块 中 进行 插入 和 删除 之 类 
的 改变 ， 那 么 此 插入 或 删除 点 后 所 有 的 地 址 都 
将 改变 。 因 此 ， 更 可 取 的 做 法 是 ， 允 许 把 在 程 L 
序 中 的 内 存 引用 表述 符号 化 ， 并 且 在 编译 和 汇 l = 
编 时 解析 这 些 符号 的 引用 。 图 B-11 体现 了 这 一 图 B-10 进程 的 寻 址 需求 
方法 。 每 一 个 指令 或 数据 项 的 引用 最 初 由 符号 表示 。 在 准备 输入 绝对 装载 器 时 ， 汇 编 器 或 编译 器 将 把 所 有 
的 符号 引用 转换 为 明确 的 地 址 。( 在 这 个 例子 中 ， 模 块 将 载 人 到 起 始 地 址 为 1024 的 内 存 中 ) ， 正 如 图 B-11b 
所 示 那 样 。 




















RBS 地址 绑 定 
a) 装载 器 
绑 定 时 间 功 能 
编程 时 间 在 程序 中 所 有 的 实际 物理 地 址 都 由 程序 员 直 接 指定 





程序 中 包含 符号 地 址 引用 ， 并 且 这 些 符号 地 址 引用 由 编译 器 或 汇编 器 转换 为 实际 的 物理 
地 址 


编译 器 或 汇编 器 产生 相对 地 址 ， 装 载 器 在 装载 程序 时 将 相对 地 址 转换 为 绝对 地 址 
装载 程序 保留 相对 地 址 ， 它 们 由 处 理 器 硬件 动态 转换 为 绝对 地 址 


编译 或 汇编 时 间 












装载 时 间 
运行 时 间 




















b) 链接 器 
链接 时 间 功 能 
编程 时 间 不 允许 引用 外 部 的 程序 或 数据 ， 程 序 员 必须 把 所 有 的 子 程序 所 引用 的 源 代码 放 入 程序 中 
编译 或 汇编 时 间 汇编 器 必须 获取 每 个 被 调用 的 子 例 程 的 源 代码 ， 并 与 调用 它们 的 代码 一 起 汇编 为 一 个 单元 













所 有 的 目标 模块 都 使 用 相对 地 址 进行 汇编 ， 这 些 模块 都 链接 在 一 起 ， 并且 所 有 的 引用 都 以 
相对 于 最 终 装 载 模块 的 起 始 地 址 进行 重 定位 


外 部 引用 只 有 在 装载 模块 载 人 到 内 存 时 才 进 行 解析 。 在 那 时 ， 被 引用 的 动态 链接 模块 被 添 
加 到 装载 模块 ， 并 且 整 个 程序 包 都 载 人 到 主 存 或 虚拟 内 存 


外 部 引用 只 有 在 处 理 器 执行 到 一 个 外 部 调用 时 才 进 行 解析 。 在 那 时 ， 进 程 被 中 断 ， 并 且 所 
需要 的 模块 将 被 链接 到 调用 程序 


创建 装载 模块 








装载 时 间 





运行 时 间 


可 重 定位 装载 ”在 装载 之 前 ， 将 内 存 引用 和 特定 地 址 绑 定 的 缺点 是 ， 将 导致 装载 模块 只 能 被 装 和 人 内存 
中 的 一 个 指定 区 域 。 然 而 ， 当 内 存 中 有 很 多 程序 时 ， 不 应 该 事先 决定 一 个 特定 的 模块 应 放 和 人 内存 中 的 哪个 
区 域 ， 更 好 的 做 法 是 在 装载 的 时 候 来 决定 。 因 此 ， 我 们 需要 使 装载 模块 能 放 人 到 内 存 中 的 任何 位 置 。 

为 了 满足 这 个 新 的 要 求 ， 汇 编 器 或 编译 器 不 产生 实际 的 内 存 地 址 〈 绝 对 地 址 ) ， 而 产生 相对 于 某 些 已 
知 点 的 地 址 ， 例 如 程序 的 起 点 。 这 一 技术 如 图 B-11e 所 示 。 装 载 模块 的 起 点 分 配 相对 地 址 0， 在 此 模块 内 ， 
所 有 的 内 存 引用 都 表述 为 相对 于 模块 起 点 的 地 址 。 

当 所 有 的 内 存 引用 都 表述 为 相对 地 址 格式 ,那么 装载 器 将 模块 装 人 到 预期 位 置 将 变 成 一 件 易 事 。 如 果 
模块 要 装 和 到 以 x 为 起 始 地 址 的 区 域 ， 那 装载 器 给 每 一 个 内 存 引 用 简单 地 加 上 *。 为 了 协助 这 个 任务 ， 装 
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1200+x 








c) 相对 装载 模块 。 d 相对 装载 模块 被 装载 到 
主 存 以 为 起 始 的 地 址 


a) 目标 模块 b) 绝对 装载 模块 


图 B-11 绝对 与 可 重 定位 的 装载 模块 


载 模块 必须 包含 一 些 信息 ， 这 些 信息 告诉 装载 器 该 模块 的 地 址 引用 在 哪儿 ， 以 及 它们 应 该 如 何 被 解析 ( 通 
常 来 说 ， 地 址 引用 采用 相对 于 程序 起 点 的 相对 地 址 ， 但 是 也 可 能 相对 于 程序 中 的 其 他 点 ， 如 当前 位 置 ) 。 
这 些 信 息 由 编译 器 或 汇编 器 提供 ， 并 且 通 常 涉 及 重 定位 地 址 目录 (relocation directory) 。 

动态 运行 时 装载 ”可 重 定位 装载 器 已 很 普遍 ， 并 且 比 绝对 地 址 装载 器 优势 更 明显 。 但 是 ， 在 多 道 程 序 
运行 环境 中 ， 即 使 该 系统 不 依靠 虚拟 内 存 ， 可 重 定位 装载 方式 仍然 不 足 。 我 们 提 到 过 ， 之 所 以 需要 把 进程 
映像 换 进 换 出 内 存 ， 目 的 是 最 大 程度 地 利用 处 理 器 。 为 了 最 大 限度 地 利用 内 存 ， 我 们 希望 能 将 进程 映像 在 
不 同时 间 放 入 内 存 中 的 不 同位 置 ， 因 此 ,程序 一 旦 载 人 ， 可 能 会 换 出 到 磁盘 ， 然 后 换 人 内 存 中 的 不 同位 置 。 
如 果 内 存 引 用 在 刚 开 始 装 载 时 就 和 绝对 地 址 绑 定 ， 以 上 操作 将 不 可 能 做 到 。 

另 一 种 替代 方法 就 是 延迟 计算 绝对 地 址 ， 直 到 程序 运行 时 真正 需要 它 才 做 。 为 了 达到 这 个 目的 ， 装 载 
模块 把 所 有 内 存 引用 以 相对 地 址 的 形式 装 和 内存， 直到 指令 真正 执行 时 才 计 算 绝 对 地 址 。 为 了 确保 这 种 机 
制 不 会 降低 性 能 ， 它 必须 由 专用 的 硬件 而 不 是 软件 来 处 理 。 在 本 书 第 8 章 中 就 提 到 了 这 种 硬件 。 

动态 地 址 计算 机 制 提供 了 完全 的 灵活 性 。 一 个 程序 可 装载 到 内 存 中 的 任意 区 域 。 程 序 的 执行 可 以 中 断 ， 
程序 可 以 换 出 内 存 ， 后 面 又 可 以 换 入 到 内 存 中 的 不 同位 置 。 


B.3.3 链接 


链接 器 的 功能 是 收集 目标 模块 并 产生 一 个 装载 模块 ， 这 个 装载 模块 由 程序 模块 和 数据 模块 集合 组 成 。 
程序 运行 时 ， 装 载 器 将 装载 这 个 集成 的 装载 模块 。 在 每 一 个 目标 模块 中 ， 都 可 能 有 引用 到 其 他 模块 的 地 址 。 
每 一 个 这 样 的 引用 都 会 在 一 个 未 链接 模块 中 以 符号 形式 表示 。 每 一 个 模块 间 的 引用 都 必须 被 解析 ， 即 把 符 
号 地 址 转换 为 在 最 终 装 载 模块 内 的 地 址 。 例 如 ， 在 图 B-12a 的 模块 A 中 含有 一 个 调用 模块 B 的 程序 。 当 这 
些 模 块 在 装载 模块 结合 时 ， 这 个 模块 B 的 符号 引用 将 转换 为 到 模块 B 起 点 地 址 的 特定 引用 。 

链接 编辑 器 ”地址 链接 的 本 质 取 决 于 所 创建 的 装载 模块 的 类 型 以 及 链接 什么 时 候 发 生 ( 见 表 B-3b)。 
就 像 在 通常 情况 下 那样 ， 如 果 想 要 可 重 定位 载 人 模块， 那么 链接 通常 是 按 如 下 方式 进行 。 每 一 个 被 编译 或 
汇编 的 目标 模块 在 创建 时 ， 其 中 的 地 址 引用 都 以 相对 于 目标 模块 起 始 地 址 的 形式 表示 。 所 有 的 这 些 模 块 都 
一 起 放 在 一 个 可 重 定位 载 和 模块 中 ， 所 有 的 引用 都 转换 为 相对 于 装载 模块 起 始 地 址 的 引用 。 这 个 装载 模块 
即 可 用 作 可 重 定位 装载 器 或 动态 运行 时 装载 器 的 输入 。 

能 产生 可 重 定位 载 和 模块 的 链接 器 通常 被 称 为 是 链接 编辑 器 (linkage-editor) 。 图 B-12 显示 了 链接 编辑 
器 的 功能 。 

动态 链接 器 ”了 解 了 装载 过 程 ， 可 以 发 现 我 们 可 以 推迟 某 些 链接 功能 。 动 态 链接 (dynamic linking) 用 
来 表述 在 装载 模块 创建 之 前 ， 延 迟 链接 一 些 外 部 模块 的 技术 。 采 用 动态 链接 的 话 ， 装 载 模 块 会 包含 未 解析 
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对 模块 B 的 
外 部 引用 





L+M+N-1 |Retum | 





b) 装载 模块 





图 B-12 链接 功能 模块 


的 其 他 程序 的 引用 。 这 些 引 用 将 在 装载 时 或 运行 时 进行 解析 。 
若是 装载 时 动态 链接 (CAA B-9 中 上 半 部 的 动态 链接 库 有 关 ) ， 它 的 步骤 如 下 : 将 被 载 人 的 装载 模 
块 (应 用 模块 ，application module) 读 入 内存 。 任 何 到 外 部 模块 〈 目标 模 块 ，target module) 的 引用 将 引起 
装载 器 寻找 并 载 入 目标 模块 ， 且 把 引用 转化 为 相对 于 应 用 模块 起 始 地 址 的 相对 地 址 。 这 种 方法 与 所 请 的 更 
态 链接 相 比 ， 有 下 述 诸多 优势 ; 
。 这 使 得 合并 修改 过 的 或 升级 的 目标 模块 很 容易 实现 ， 而 这 一 目标 模块 可 能 是 操作 系统 的 常用 功能 或 
其 他 某 个 通用 子 程序 。 如 果 采 用 静态 链接 ， 一 旦 该 目标 模块 稍 有 变化 将 会 导致 整个 应 用 模块 需要 重 
新 链接 。 这 样 做 不 但 低 效 ， 而 且 在 某 些 情况 下 根本 不 能 实现 。 例 如 ， 在 个 人 电脑 领域 ， 绝 大 多 数 商 
业 软 件 是 以 装载 模块 形式 发 行 ， 源 代码 和 目标 版 本 却 不 发 行 。 
。 动态 链接 文件 中 的 目标 代码 为 自动 代码 共享 做 了 准备 。 操 作 系统 能 判断 出 超过 一 个 应 用 在 使 用 相同 
的 目标 代码 ， 因 为 操作 系统 装载 并 链接 这 些 代 码 。 这 样 一 来 ， 它 可 以 利用 所 知 信息 ， 只 载 人 一 份 目 
标 代码 的 拷贝 来 链接 两 个 应 用 ， 而 不 是 为 每 个 应 用 程序 各 装载 一 个 拷贝 。 
© 这 使 得 独立 的 软件 开发 者 能 很 轻松 地 扩展 广 为 使 用 的 操作 系统 的 功能 ， 例 如 Linux。 开 发 者 能 以 动 
态 链 接 模 块 的 形式 提供 一 项 新 功能 ， 这 项 功能 可 能 对 许多 应 用 非常 有 用 。 
对 运行 时 动态 链接 (与 图 B-9 中 下 半 部 的 动态 链接 库 有 关 ) 来 说 ， 有 些 链接 推迟 到 执行 时 才 进 行 。 
到 目标 模块 的 外 部 引用 在 装载 程序 保留 不 变 ， 不 做 解析 。 当 程序 执行 到 对 目标 模块 的 调用 时 ， 由 于 被 调用 
的 模块 缺失 ， 操 作 系统 将 找到 这 个 缺失 模块 ， 载 人 它 ， 并 链接 到 调用 模块 。 通 常 这 种 模块 是 典型 的 共享 模 
块 。 在 Windows 操作 系统 中 ， 这 种 模块 称 为 动态 链接 库 (Dynamic-Linked Library，DLL) 。 因 此 ， 如 果 一 个 
进程 使 用 了 共享 的 动态 链接 模块 ， 那 么 一 个 新 进程 可 以 简单 地 链接 到 已 存在 的 载 人 模块 。 
使 用 DLL (动态 链接 库 ) 可 能 会 导致 动态 链接 库 灾难 (DLL Hell) 。 动 态 链接 库 灾 难 发 生 在 当 两 个 或 更 
多 的 进程 共享 一 个 DLL 模块 ， 而 每 个 进程 却 期 望 使 用 该 共享 DLL 模块 的 不 同 版 本 。 例 如 ， 一 个 系统 或 应 用 
程序 可 能 被 重 装 ， 从 而 带 入 老 版 本 的 DLL 文件 。 
我 们 已 经 看 到 动态 装载 允许 一 个 完整 的 装载 模块 在 内 存 中 移动 到 其 他 位 置 。 但 是 ， 模 块 的 内 部 结构 是 
静态 的 ， 无 论 程序 执行 了 多 少 次 ， 都 不 会 改变 。 然 而 ， 在 某 些 情况 下 ， 没 有 办 法 在 执行 之 前 确定 哪些 目标 
模块 会 被 用 到 。 这 种 情形 的 一 个 典型 例子 是 事务 处 理应 用 (transaction-processing application) ， 像 航空 订 票 
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系统 或 银行 应 用 系统 。 事 务 本 身 的 特性 决定 了 哪些 程序 模块 要 被 调用 ， 这 些 模块 会 在 适当 的 时 机 装载 并 链 
接 到 主 程序 中 。 使 用 运行 时 动态 链接 器 的 优点 在 于 ， 不 用 在 一 开始 就 为 所 有 程序 单元 分 配 存储 空间 ， 除 非 
该 单元 被 引用 过 。 运 行 时 动态 链接 也 支持 分 段 (segmentation) 程序 系统 。 

另 一 个 改进 是 ， 应 用 程序 不 需要 知道 那些 可 能 被 调用 的 模块 的 名 称 或 人口 地 址 。 例 如 ,一 个 制图 程序 
可 能 被 设计 为 能 使 用 不 同 的 绘图 仪 ， 每 一 种 绘图 仪 都 有 不 同 的 驱动 程序 来 驱动 。 该 制图 程序 可 以 通过 系统 
中 由 其 他 进程 安装 的 绘图 仪 来 获得 绘图 仪 的 名 称 ， 或 者 从 一 个 配置 文件 中 查找 到 绘图 仪 的 名 称 。 这 样 就 允 
许 用 户 安装 新 的 绘图 仪 驱动 程序 ， 即 使 这 些 绘图 仪 在 该 制图 程序 设计 时 甚至 都 还 未 出 现 。 


B.4 推荐 的 读物 和 Web 站 点 

[SALO93] 包含 了 汇编 器 与 装载 器 的 设计 与 实现 。 

链接 和 装载 这 两 个 主题 在 很 多 程序 开发 ， 计 算 机 体系 结构 ， 以 及 操作 系统 的 书籍 上 都 有 提 到 。 一 个 特 
别 详细 的 论述 是 [BECK97] ，[ CLAR98] 也 有 很 好 的 论述 。 在 [LEVI00] 中 ， 使 用 很 多 操作 系统 的 实例 ， 
对 这 个 主题 进行 了 透彻 且 具 有 实用 性 的 论述 。 

[BART03] 对 学 习 x86 处 理 器 的 汇编 语言 做 出 了 精彩 的 论述 ， 很 适合 自学 。[ CART06] 涵盖 了 x86 IL 
编 语言 。 对 于 严谨 的 x86 汇编 语言 程序 员 来 说 ，[FOG08a] 很 有 用 。[KNAG04] 透彻 地 论述 了 ARM 汇编 
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e Gavin 的 80x86 汇编 指南 (Gavin’s Guide to 80x86 Assembly); 一 个 关于 x86 汇编 语言 精彩 简明 的 
概述 。 

e 汇编 语言 编程 艺术 (The Art of Assembly Language Programming): 它 提 供 多 达 1500 页 ， 内 容 无 所 不 
包 的 在 线 文档 。 这 对 学 习 汇编 语言 的 学 生来 说 足 侨 。 


BS 关键 词 、 思 考题 和 习题 


关键 词 

assembler: 汇编 器 label: 标号 

assembly language: 汇编 语言 linkage editor: 链接 编辑 器 

comment; 注释 linking: 链接 

directive; 指导 语句 load-time dynamic linking: 装载 时 动态 链接 
dynamic linker; 动态 链接 器 loading: 装载 


instruction: 指令 macro: # 
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mnemonic; 助 记 符 relocation: 重 定位 

one-pass assembler: 单 趟 汇编 器 run-time dynamic linking: 运行 时 动态 载 人 
operand: 操作 数 two-pass assembler; 两 趟 汇编 器 

思考 题 


B.1 
B.2 
B.3 
B.4 
B.5 
B.6 
B.7 


习题 
B.1 


B.2 


请 给 出 为 什么 要 学 习 汇 编 语言 程序 设计 的 理由 。 
什么 是 汇编 语言 ? 

与 高 级 程序 语言 相 比 ， 汇 编 语言 有 哪些 缺点 ? 
与 高 级 程序 语言 相 比 ， 汇 编 语言 又 有 哪些 优点 ? 
汇编 语言 语句 的 典型 组 成 部 分 有 哪些 ? 

列举 并 定义 四 种 不 同 的 汇编 语言 语句 。 

单 趟 汇编 器 与 两 趟 汇编 器 有 什么 区 别 ? 


Core War (核心 大 战 ) 是 20 世纪 80 年 代 早 期 走向 大 众 的 编程 游戏 ， 曾 流行 15 年 之 久 。Core War 由 四 
个 主要 部 分 组 成 : 8000 个 地 址 组 成 的 内 存 空间 ， 一 个 简化 的 汇编 语言 Redcode， 执 行程 序 MARS (€ 
是 Memory Array Redcode Simulator 的 首 字 母 缩 写 ) 以 及 对 战 程序 。 两 个 对 战 程序 在 进入 内 存 时 随机 选 
择 位 置 ， 任 一 程序 都 不 知道 另 一 程序 在 哪里 。MARS 以 简单 的 分 时 形式 执行 程序 ， 两 个 程序 轮流 执行 : 
一 个 程序 在 执行 完 一 条 指令 后 ， 另 一 程序 也 执行 一 条 指令 ， 依 次 轮流 执行 。 对 战 程序 在 执行 周期 中 做 
些 什么 操作 完全 由 程序 员 决 定 。 对 战 程序 的 目标 就 是 通过 摧毁 另 一 程序 的 指令 来 打败 对 方 。 在 这 个 问 
题 以 及 接 下 来 的 几 个 中 ， 我 们 使 用 一 个 叫 CodeBlue 的 更 为 简单 的 语言 ， 来 阐述 一 些 Core War 的 概念 。 

CodeBlue 仅 有 5 个 汇编 语句 ， 使 用 三 种 寻 址 方式 (42 B-4) 。 地 址 空间 首尾 相 接 ， 即 最 后 一 个 单元 的 地 
址 加 1， 则 回 到 了 地 址 空间 的 第 一 个 单元 。 例 如 ，ADD #4, 6 把 相对 地 址 为 6 的 内 存单 元 中 的 值 加 4 并 
存储 在 地 址 为 6 的 内 存单 元 中 ; JUMP @5 将 执行 转移 到 当前 位 置 后 5 个 地 址 单元 所 在 的 指令 。 


表 B-4 CodeBlue 汇编 语言 
a) 指令 集 









格 A 
DATA <value> 


意 x 
在 当前 地 址 设置 值 < value > 

















COPY A, B 将 数据 从 A 拷贝 到 B 
ADD A, B A 加 B， 结 果 放 在 B 
JUMP A 跳 转 去 执行 A 

JUMPZ A, B 如 果 B=0， 转 去 执行 A 





b) 寻 址 方式 










意 X 
这 是 立即 寻 址 ， 操 作 数 就 在 指令 中 
这 个 值 表 示 了 一 个 从 当前 地 址 的 开始 的 偏 移 量 ， 它 包含 操作 数 


这 个 便民 现 了 一 个 从 当前 地 址 开始 的 移动 人 这 个 含有 相对 地 址 的 地 址 中 ， 又 








立即 寻 址 | # 后 面 跟 值 















间接 寻 址 


(a) 程序 Imp 就 是 一 条 指令 COPY 0 ,1 这 条 指令 会 做 什么 ? 
(b) 程序 Dwarf 是 一 个 指令 序列 : 

ADD #4, 3 

COPY 2» €@2 

JUMP -2 

DATA 0 

那么 这 个 程序 会 做 什么 ? 
(c) 使 用 符号 重 写 Dwarf， 使 它 更 像 典型 的 汇编 语言 程序 。 
如 果 Imp 和 Dwarf 相互 对 战 ， 会 发 生 什 么 事 ? 


B.3 


B.4 


B.5 


B.6 


B.7 


B.8 


B.9 


B.10 


B.11 


B.12 


B.13 


附录 B 汇编 语言 及 相关 主题 * 47 1 


使 用 CodeBlue 写 一 个 “地 毯 式 销 炸 ” 程 序 ， 把 所 有 的 内 存单 元 清 零 (可 能 的 例外 是 程序 本 身 占 据 的 内 
存单 元 ) 。 
下 面 这 个 程序 与 Imp 对 战 会 怎么 样 ? 
Loop COPY #0, -1 
JUMP -1 
提示 : 在 两 个 程序 对 战 时 ， 它 们 的 指令 交替 执行 。 
(a) 在 执行 完 以 下 指令 后 ， 状 态 标 志 C 的 值 是 什么 ? 
mov al, 3 
add al, 4 
(b) 在 执行 完 以 下 指令 后 ， 状 态 标志 C 的 值 又 会 是 什么 ? 
mov al, 3 
subal, 4 
思考 下 面 这 个 NASM 指令 : 
cmp vleft, vright 
对 于 有 符号 整数 ， 有 三 个 相关 的 状态 标志 位 : ZF 、SF、OF。 如 果 vleft = vright， 那 么 ZF 被 置 位 。 如 果 
vleft > vright， 那 么 ZF 被 清 零 ， 而 SF = OF 。 如 果 vleft < vright， 那 么 ZF RAS, MSFAOF, ATA 
当 vleft > vright Hf; SF = OF? 
思考 下 列 NASM 代码 片段 : 
mov al, 0 
cmp al, al 
je next 
请 只 用 一 条 指令 编写 一 个 与 之 等 价 的 程序 。 
思考 下 面 的 C 程序 代码 : 
/* 一 个 简单 的 C 程序 , 求 一 组 整数 的 平均 值 * / 
main () 
{int avg; 
int il 20; 
T3; 
82; 
avg = (i1 + i2 + i3) /3; 
} 
请 用 NASM 编写 一 个 与 之 等 价 的 汇编 语言 程序 。 
思考 下 列 C 语言 代码 片段 : 
If (EAX ==0) EBX=1; 
else EBX =2; 
请 编写 与 之 等 价 的 NASM 代码 。 
初始 化 数据 指导 语句 可 用 于 初始 化 多 个 地 址 的 内 容 。 例 如 : 
db 0x55, 0x56, 0x57 
保留 三 个 字 节 ， 并 初始 化 它们 的 值 。NASM 支持 特殊 标记 符 $ ， 用 于 涉及 当前 汇编 位 置 的 计算 。 当 $ 
出 现在 表达 式 起 始 时 ， 它 表示 当前 的 汇编 位 置 。 根 据 以 上 叙述 ， 考 虑 下 面 的 指导 语句 序列 : 
message db ‘hello, world ' 
msglen equ $ -message 
那么 符号 msglen 被 赋予 的 值 会 是 多 少 ? 
假设 有 3 个 符号 变量 V1、V2、V3 ， 它 们 都 存储 整 型 值 。 编 写 一 段 NASM 代码 ， 把 这 三 个 变量 中 的 最 
小 值 移 到 整 型 变量 ax 中 ， 只 准 使 用 指令 mov, cmp, jbe, 
请 描述 下 面 这 条 指令 的 执行 效果 : cmp eax, 1 
假设 前 一 条 指令 已 经 更 新 了 eax 中 的 内 容 。 
xchg 指令 用 于 交换 两 个 寄存 器 中 的 内 容 。 假 设 x86 指令 集 不 支持 这 条 指令 。 
(a) 仅 使 用 指令 push 和 pop 来 实现 指令 xchg ax, bx, 
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(b) 仅 使 用 指令 xor (不 使 用 其 他 的 寄存 器 ) 来 实现 xchg ax, bx, 

在 下 列 程序 中 ,假设 a, b, x, y 是 主 存 地 址 的 符号 。 那 该 程序 会 做 什么 ? 你 可 以 用 C 语言 编写 等 价 

程序 。 
mov eax, 
mov ebx, 
xor eax, 
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xor ebx, 
or eax, ebx 
jnz L23 

Ll: ; 一 个 指令 序列 (具体 内 容 略 )… 
jmp L3; 

L2 : ; 另 一 个 指令 序列 (具体 内 容 略 )… 

L3 è 

B.1 节 中 有 一 个 求 两 整数 最 大 公约 数 的 C 程序 。 

(a) 用 文字 描述 欧 几 里 得 算法 并 解释 这 个 程序 如 何 使 用 欧 几 里 得 算法 求 最 大 公约 数 。 

(b) 给 图 B-3a 中 的 汇编 程序 添加 注释 来 说 明 它 和 C 程序 有 同样 的 功能 。 

(c) 给 图 B-3b 中 的 程序 也 添加 注释 。 

(a) 两 趟 汇编 器 可 以 处 理 未 定义 符号 ， 因 此 指令 可 以 把 未 定义 符号 用 作 操 作 数 。 但 这 对 指导 语句 来 
说 并 不 总 是 正确 。 例 如 EQU 指导 语句 就 不 能 使 用 未 定义 符号 。 指 导语 句 “A EQU B+1” 在 B 已 
定义 时 可 以 很 容易 执行 ， 但 如 果 B 是 未 定义 符号 ， 那 就 不 行 。 请 问 这 是 为 什么 ? 

(b) 为 汇编 器 设计 一 个 方法 解决 这 个 限制 ， 使 得 汇编 程序 中 任何 语句 都 可 以 使 用 未 定义 符号 。 

思考 下 列 形式 的 符号 指导 语句 MAX: 

符号 MAX 表达 式 列表 

其 中 “符号 ”是 必需 的 ， 并 且 将 被 赋值 为 指导 语句 的 操作 数 中 各 个 表达 式 结果 的 最 大 值 。 例 如 : 

MEGLEN MAX A, B, C ; HPA, B, C 都 是 已 定义 的 符号 

那么 汇编 器 是 如 何 执行 MAX 指导 语句 的 ? 在 第 几 趟 扫描 中 ? 


| 术语 表 


Computer Organization and Architecture: Designing for Performance, 8E 


absolute address (绝对 地 址 ) ”计算 机 语言 中 ， 用 来 辨别 一 个 存储 单元 或 一 个 设备 的 地 址 ， 且 无 需 其 他 中 
间 访 问 。 

accumulator ( 累加 器 ) CPU 中 的 寄存 器 名 (AC) ， 用 来 表示 单 地 址 指令 格式 中 被 隐 含 的 那 一 个 操作 数 。 

address bus (地 址 总 线 ) ”系统 总 线 的 一 部 分 ， 用 于 地 址 的 传输 。 通 常 ， 该 地 址 识别 一 个 主 存单 元 或 一 个 
YORE. 

address space (地 址 空间 ) ”能 被 访问 的 主 存 或 /O 设备 的 地 址 范围 。 

arithmetic and logic unit (ALU, BASHA) ”计算 机 中 执行 算术 运算 、 逻 辑 运算 和 关系 运算 的 部 件 。 

ASCII (ASCII) 美国 信息 交换 标准 代码 ， 是 一 种 7 位 二 进 制 编 码 ， 用 来 表示 数字 、 字 母 和 一 些 可 以 输 
出 的 符号 ; 也 包括 一 些 不 能 输出 或 显示 、 但 说 明 一 些 控制 功能 的 控制 符 。 

assembly language (汇编 语言 ) ”一 种 面向 计算 机 的 语言 ， 其 指令 通常 与 计算 机 的 机 器 指令 一 一 对 应 ， 且 
提供 了 一 些 便利 ， 如 宏 指令 的 使 用 。 同 义 于 computer-dependent language, 

associative memory ( 相 联 存储 器 ) 一 种 依靠 其 内 容 (或 一 部 分 内 容 ) ， 而 不 是 依靠 其 名 称 或 其 位 置 来 识 
别 存储 单元 的 存储 器 。 

asynchronous timing ( 异步 时 序 ) ”总 线 上 一 个 事件 的 发 生 跟 随 且 依赖 于 其 前 面 的 事件 的 一 种 技术 。 

autoindexing ( 自动 变 址 ) ” 变 址 寻 址 的 一 种 形式 ， 其 变 址 寄存 器 随 着 每 次 存储 器 的 访问 而 自动 地 增加 或 
减少 。 

base ($) 常用 于 科学 论文 中 表示 数据 ， 其 值 等 于 该 基 的 指数 次 方 乘 以 尾数 〈( 例 如， 表达 式 2.7'10” =270 
中 的 数字 10 即 为 基 ) 。 

base address ( 基 址 ) 计算 机 程序 执行 时 用 来 计算 地 址 的 一 种 参考 值 。 

binary operator ( 二 元 运算 符 ) “表示 两 个 且 仅 仅 两 个 操作 数 运算 的 一 种 运算 符 。 

bit (位 ) 在 纯 二 进 制 数字 系统 中 ， 每 一 位 只 能 为 0 RAI, 

block multiplexor channel ( 块 多 路 通道 ) ”一 种 交叉 传送 数据 块 的 多 路 通道 。 参 考 byte multiplexor channel, 
与 selector channel 进行 比较 。 

branch prediction (分 支 预测 ) ”处 理 器 在 程序 分 支 执行 前 预测 其 结果 的 一 种 机 制 。 

buffer ( 缓冲 器 ) ”一 种 存储 装置 ， 当 数据 从 一 个 设备 传送 到 另 一 个 设备 时 ， 用 来 弥补 数据 流 的 速度 差别 或 
事件 发 生 的 时 间 差别 。 

bus (总 线 ) ”一 种 分 时 通信 的 通路 ， 由 一 根 或 一 组 线 组 成 。 在 一 些 计算 机 系统 中 ，CPU、 存 储 器 和 IO ik 
备 由 公共 总 线 相 连 。 由 于 这 些 线 由 所 有 部 件 共享 ， 因 此 在 任何 时 刻 只 能 有 一 个 部 件 能 成 功 传送 信息 。 

bus arbitration (总 线 仲裁 ) 决定 那个 竞争 总 线 的 设备 被 允许 占用 总 线 的 过 程 。 

bus master (总 线 主 控 ) ”占用 总 线 、 具 有 初始 化 和 控制 通信 的 设备 。 

byte ( 字 节 ) 8 位 二 进 制 序 列 ， 也 称 为 8 位 位 组 。 

byte multiplexor channel ( 字 节 多 路 通道 ) 一 种 交叉 传送 数据 字 节 的 多 路 通道 。 参 考 block multiplexor 
channel, 45 selector channel 进行 比较 。 

cache (高 速 缓存 ) ”一 种 相对 小 但 快速 的 存储 器 ， 置 于 更 大 、 更 慢 的 存储 器 与 访问 更 大 存储 器 的 逻辑 之 
间 。 它 存放 最 近 被 访问 的 数据 ， 以 加 速 这 些 数 据 的 后 继 访问 。 

cache coherence protocol (cache 一 致 性 协议 ) ”在 多 个 cache 之 间 保 持 数 据 有 效 性 的 一 种 机 制 ， 以 便 每 次 
访问 都 将 得 到 主 存 数 据 的 最 近 版 本 。 

cache line (cache 行 ) 与 cache 标识 有 关 的 一 个 数据 块 ， 也 是 cache 与 主 存 之 间 的 传送 单位 。 

cache memory (cache 存储 器 ) 一 种 特殊 的 缓冲 存储 器 ， 比 主 存 小 而 快 ， 用 来 保存 主 存 中 可 能 即将 被 处 
理 器 需要 的 指令 和 数据 的 一 个 副本 ， 并 且 是 从 主 存 中 自动 获取 信息 。 

CD-ROM 只 读 光盘 ， 用 来 存放 计算 机 数据 的 一 种 不 可 擦 写 磁 盘 。 标 准 系统 用 12cm 磁盘 ， 能 存放 多 于 
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550MB 的 信息 。 

central processing unit ( CPU， 中央 处 理 器 ) ”计算 机 中 取 指 令 和 执行 指令 的 部 件 ， 它 包括 算术 逻辑 单元 
(ALU) 、 控 制 部 件 和 寄存 器 组 ， 常 常 简称 为 处 理 器 。 

cluster (集群 ) 一 组 互 连 的 计算 机 ， 全 体 计 算 机 作为 一 个 统一 的 计算 资源 一 起 工作 ， 能 产生 是 一 台 计 算 
机 的 幻象 。 术 语 “ 全 体 计算 机 ”意味 着 一 个 系统 可 以 远离 集群 而 独立 运行 。 

combinational circuit ( 组合 电 路 ) ”一 种 逻辑 设备 ， 对 于 任何 给 定 的 状态 ， 其 输出 值 只 依赖 于 输入 值 。 组 合 
电路 是 时 序 电路 的 一 种 特殊 形式 ， 它 没有 存储 功能 。 同 义 于 combinatorial circuit , 

compact disk (CD, XÆ) 一 种 不 可 擦 写 的 磁盘 ， 用 来 存放 数字 音频 信息 。 

computer architecture (计算 机 体系 结构 ) ”程序 员 所 能 看 见得 一 些 系 统 属性 ， 或 者 说 ， 能 直接 影响 程序 逻 
辑 执行 的 一 些 属性 。 通 常 ， 系 统 的 体系 结构 属性 包括 指令 集 、 用 来 表示 各 种 数据 类 型 的 二 进 制 位 ( 例 
如 ， 数 字 、 字 符 ) VO 机 制 、 存 储 器 寻 址 技术 等 。 

computer instruction (计算 机 指令 ) 一 条 为 计算 机 所 设计 的 、 能 被 计算 机 中 的 处 理 单元 识别 的 指令 。 同 义 
于 machine instruction。 

computer instruction set (计算 机 指令 集 ) ”计算 机 指令 的 一 整套 操作 和 集合， 以 及 对 其 操作 数 类 型 的 描述 。 
同 义 于 machine instruction set, 

computer organization (计算 机 组 成 计算 机 组 织 ) ”为 实现 系统 结构 规范 所 涉及 的 操作 部 件 及 其 互 连 。 组 
成 属性 包括 一 些 对 程序 员 透 明 的 硬件 细节 ， 如 控制 信号 、 计 算 机 与 外 设 之 间 的 接口 、 使 用 的 存储 器 技 
术 等 。 

conditional jump (条 件 转移 ) ” 仅 当 条 件 指 令 被 执行 且 指定 的 条 件 满 足 时 ， 跳 转 才 发 生 。 与 unconditional 
jump 进行 比较 。 

condition code (条 件 码 ) 反映 前 一 个 操作 (如 算术 运算 ) 结果 的 编码 。CPU 可 以 包含 一 个 或 多 个 条 件 
码 ， 条 件 码 可 以 分 开 地 存放 在 CPU 内 部 ， 也 可 以 作为 更 大 的 控制 寄存 器 的 一 部 分 。 也 称 为 “标志 ”。 

control bus ( 控制 总 线 ) ”系统 总 线 中 用 来 传输 控制 信号 的 部 分 。 

control registers (控制 寄存 器 ) ”用 来 控制 CPU 操作 的 CPU 寄存 器 ， 该 寄存 器 的 大 部 分 是 用 户 不 可 见 的 。 

control storage ( 控制 存储 器 ) ”存储 器 的 一 部 分 ， 用 来 存放 微 代 码 。 

control unit (控制 单元 ) CPU 的 一 部 分 ， 控 制 CPU 的 操作 ， 包 括 ALU 操作 、CPU 内 部 的 数据 传送 、 数 据 
交换 和 跨 外 部 界面 (例如 ， 系统 总 线 ) 的 控制 信和 号。 

daisy chain (菊花 链 ) ”一 种 设备 互 连 方法 ， 通 过 串 行 地 连接 中 断 源 来 决定 中 断 优先 级 。 

data bus (数据 总 线 ) ”系统 总 线 中 用 来 传输 数据 的 部 分 。 

data communication (数据 通信 ) 设备 之 间 的 数据 传输 。 该 术语 通常 将 LO 排斥 在 外 。 

decoder ( 译 码 器 ) 一 种 包含 多 个 输入 线 和 多 个 输出 线 的 设备 ， 其 任何 输入 线 都 可 以 携带 信号 ,但 其 输出 
线 中 最 多 只 能 一 根 携带 信号 ， 在 输出 与 输入 信号 的 组 合 之 间 有 一 一 对 应 关系 。 

demand paging (请 求 页 面 ) 需要 时 ,一 个 页 面 从 辅助 存储 器 到 实际 存储 器 的 传送 。 

direct access ( 直接 访问 ) ”以 独立 于 数据 的 相对 位 置 次 序 ， 依 靠 指 出 数据 的 物理 位 置 的 地 址 ， 从 存储 器 设 
备 中 获取 数据 或 输入 数据 到 存储 器 设备 中 的 能 力 。 

direct address (直接 地 址 ) ”指示 作为 操作 数 的 数据 项 在 存储 器 中 位 置 的 地 址 。 同 义 于 one-level address, 

direct memory access ( DMA， 直 接 存 储 器 存 取 ) 一 种 1O 形式 ， 它 由 一 种 特殊 的 模块 ( 称 为 DMA 模块 ) 
来 控制 主 存 与 VO 模块 之 间 的 数据 交换 。CPU 发 送 一 个 需要 传送 数据 块 的 请 求 给 DMA 模块 ， 然 后 一 直 
到 整个 数据 块 传送 完成 后 才 被 中 断 。 

disabled interrupt (不 允许 中 断 ) ”通常 是 由 CPU 创造 的 一 个 环境 ， 在 此 期 间 ，CPU 将 忽略 指定 类 型 的 中 断 
请 求 信号 。 

diskette (磁盘 ) 一 种 包装 在 保护 套 中 的 软 性 磁盘 。 同 义 于 flexible disk, 

disk pack (磁盘 组 套 ) 一 组 可 从 磁盘 驱动 器 中 整体 印 载 的 磁盘 ， 该 组 磁盘 装 在 一 个 盒 套 中 ,使 用 时 要 将 
磁盘 组 从 盒 套 中 取出 。 

disk stripping (磁盘 条 带 ) ”一 种 磁盘 阵列 映射 方法 ， 其 中 逻辑 上 连续 的 数据 块 ， 或 称 条 带 (strip), BOA 
环 地 映射 到 连续 的 磁盘 号 上 。 而 映射 到 各 个 磁盘 号 的 一 组 连续 逻辑 条 带 称 为 一 条 (stripe) 。 
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dynamic RAM (动态 RAM) 一 种 使 用 电容 来 实现 其 存储 元 件 的 RAM。 除 非 进 行 周期 性 刷新 ， 否 则 ， 动 态 
RAM 将 逐渐 丢失 其 数据 。 

emulation (模拟 ) ”一 个 系统 对 另 一 个 系统 的 全 部 或 部 分 所 进行 的 模仿 (主要 通过 硬件 ) ， 即 模仿 系统 像 
被 模仿 系统 一 样 ， 接 受 相同 的 数据 、 执 行 相同 的 程序 和 实现 相同 的 结果 。 

enabled interrupt ( 允许 中 断 ) ”通常 是 由 CPU 创造 的 一 个 环境 ， 在 此 期 间 ，CPU 将 响应 指定 类 型 的 中 断 请 
求 信号 。 

erasable optical disk (可 擦 写 光 盘 ) 一 种 使 用 光学 技术 、 能 容易 擦 除 和 重 写 的 磁盘 。 常 用 的 有 3. 25 英寸 
和 5.25 英寸 的 磁盘 ， 典 型 的 容量 为 650MB。 

error-correcting code ( 纠 错 码 ) ”每 个 符号 或 信号 都 符合 指定 的 一 些 结构 规则 的 一 种 编码 ， 如 果 背 离 了 这 
些 规则 ， 则 表明 存在 错误 ， 并 且 可 以 自动 纠正 部 分 或 全 部 错误 。 

error-detecting code (错误 检测 码 ) “每 个 符号 或 信号 都 符合 指定 的 一 些 结构 规则 的 一 种 编码 ， 如 果 背 离 了 
这 些 规则 ， 则 表明 存在 错误 。 

execute cycle (执行 周期 ) ”指令 周期 的 一 部 分 ， 在 此 期 间 ，CPU 执行 指令 操作 码 规定 的 操作 。 

fetch cycle ( 取 指 周期 ) ”指令 周期 的 一 部 分 ， 在 此 期 间 ，CPU 从 存储 器 中 取得 将 要 执行 的 指令 。 

firmware (固件 ) ”存放 在 只 读 存 储 器 中 的 微 代码 。 

fixed-point representation system (定点 表示 系统 ) 一 种 小 数 表示 系统 ， 其 中 小 数 点 隐 含 地 固定 在 数字 序 
列 中 某 些 由 达成 一 致 的 约定 所 规定 的 位 置 上 。 

flip-flop (触发 器 ) 一 种 具有 激励 元 件 、 在 给 定时 刻 能 处 于 两 种 稳 态 之 一 的 电路 或 设备 。 同 义 于 bistable 
circuit, toggle。 

floating-point representation system ( 浮 点 表示 系统 ) 一 种 计数 系统 ， 所 表示 的 实数 是 下 述 两 部 分 的 积 ， 
一 个 是 定点 部 分 ， 即 其 中 一 个 数字 ， 另 一 个 是 通过 计算 隐 含 的 浮 点 数 基 的 乘 方 所 得 到 的 值 ， 乘 方 次 数 
就 是 第 二 个 数字 所 表示 的 浮 点 数 的 阶 (exponent) 值 。 

G 缩写 , 意味 着 2”。 

gate ( 门 ) 一 种 产生 输出 信号 的 电路 ， 其 输出 信号 为 输入 信和 号 的 简单 布尔 运算 。 

general-purpose register (通用 寄存 器 ) ”通常 为 具有 明确 地 址 的 寄存 器 。 在 一 组 寄存 器 中 ， 可 以 用 于 不 同 
的 目的 。 例 如 ， 作 为 累加 器 、 索 引 寄存 器 或 数据 的 特殊 处 理 者 。 

global variable (全 局 变量 ) ”程序 中 ， 由 一 部 分 定义 ， 并 且 至 少 能 被 另 一 部 分 使 用 的 变量 。 

high-performance computing ( HPC， 高 性 能 计算 ) ”涉及 超级 计算 机 及 其 软件 的 研究 领域 ， 重 点 是 科学 计 
算 , 包括 向 量 的 大 量 使 用 、 和 矩阵 计算 和 并 行 算法 。 

immediate address (立即 数 寻 址 ) ”地 址 部 分 的 内 容 ， 它 包含 操作 数 的 值 ， 而 不 是 地 址 。 同 义 于 zero-level 
address。 

indexed address ( 变 址 寻 址 ) ”在 指令 执行 前 或 执行 过 程 中 ,根据 变 址 寄存 器 内 容 而 修改 的 地 址 。 

indexing ( 变 址 ) 一 种 利用 变 址 寄存 器 进行 地 址 修改 的 技术 。 

index register ( 变 址 寄存 器 ) ”在 计算 机 指令 的 执行 期 间 ， 其 内 容 能 用 来 更 改 操 作 数 地 址 的 寄存 器 ， 它 也 可 
以 用 作 计 数 器 。 变 址 寄存 器 可 以 用 来 控制 循环 的 执行 、 控 制 数组 的 使 用 ， 作 为 查找 表 的 切换 或 指针 。 

indirect address ( 间接 寻 址 ) 一 个 包含 地 址 的 存储 单元 的 地 址 。 

input-output (IO, 输入 /输出 ) 属于 输入 、 输 出 或 二 者 。 涉 及 计算 机 与 其 直接 附带 的 外 设 之 间 的 数据 
传送 。 

instruction address register (指令 地 址 寄存 器 ) 一 种 特殊 用 途 的 寄存 器 ， 用 来 存放 即将 执行 的 下 一 条 指令 
的 地 址 。 

instruction cycle (指令 周期 ) CPU 执行 一 条 指令 的 过 程 。 

instruction format (指令 格式 ) 计算 机 指令 作为 一 序列 二 进 制 位 的 布局 。 指 令 格 式 将 指令 分 为 不 同 的 域 ， 
以 对 应 于 指令 的 各 组 成 元 素 ( 例 如， 操作 码 、 操 作 数 ) 。 

instruction issue (指令 流出 ) ”在 处 理 器 的 功能 单元 中 ,初始 化 指令 执行 的 过 程 ， 它 发 生 在 指令 从 流水 线 
的 译 码 段 移动 到 第 一 执行 段 的 时 候 。 

instruction register (指令 寄存 器 ) ”用 来 存放 指令 以 便 译 码 的 寄存 器 。 
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integrated circuit (IC， 集 成 电路 ) ”一 个 小 的 固体 金属 〈 如 硅 ) 片 ， 其 上 蚀刻 或 印刷 有 大 量 的 电子 器 件 和 
它们 的 互 连 。 

interrupt ( 中断) ”一 个 如 同 计算 机 程序 执行 一 样 的 处 理 过 程 的 中 止 ， 它 由 外 部 事件 引起 和 执行 ， 被 中 止 的 
处 理 过 程 是 能 够 恢复 的 。 同 义 于 interruption。 

interrupt cycle ( 中 断 周期 ) 指令 周期 的 一 部 分 ， 在 此 期 间 CPU 检查 中 断 。 如 果 存 在 一 个 未 处 理 的 允许 中 
断 ， 则 CPU 保存 现行 程序 的 状态 ， 并 开始 执行 中 断 服务 程序 。 

interrupt-driven I/O (中 断 驱 动 式 /O) 一 种 O 形式 。CPU 发 出 YO 命令 后 ， 继 续 执行 其 后 续 的 指令 ， 
直到 IO 模块 完成 它 的 任务 后 才 中 断 CPU 。 

MO channel (1/O 通道 ) 一 种 相对 复杂 的 VO 模块 ， 它 将 CPU 从 VO 操作 的 细节 中 解放 出 来 。IO 通道 
将 执行 来 自主 存 的 一 系列 VO 命令 ， 而 无 需 CPU 的 干预 。 

MO controller (1/0 控制 器 ) ”一 种 相对 简单 的 IO 模块 ， 它 需要 来 自 CPU 或 0 通道 的 详细 控制 。 同 义 于 
device controller。 

MO module (1/O 模块 ) 计算 机 的 主要 部 件 类 型 之 一 ， 它 负责 一 台 或 多 台 外 部 设备 (外 设 ) 的 控制 、 外 
设 与 主 存 或 外 设 与 CPU 的 寄存 器 之 间 的 数据 交换 。 

MO processor (I/O 处 理 器 ) ” 自 带 处 理 器 的 VO 模块 ， 能 执行 它 自己 的 特殊 VO 指令 ， 甚 至 在 某 些 情况 下 
能 执行 通用 的 机 器 指令 。 

isolated /O (分 立 的 VO) 一 种 对 WO 模块 和 外 部 设备 进行 编 址 的 方法 ， 其 VO 地 址 空间 与 主 存 地 址 空 
间 分 开 处 理 ， 需 要 专用 的 VO 机 器 指令 。 与 memory-mapped I/O 进行 比较 。 

K 缩写 ， 意味 着 2 =1024， 因 此 ，2Kb =2048 fiz, 

local variable ( 局 部 变量 ) ”仅仅 在 计算 机 程序 的 一 个 特殊 部 分 进行 定义 和 使 用 的 变量 。 

locality of reference (访问 的 局 部 性 ) ”在 一 个 短 的 时 期 内 ， 处 理 器 重复 访问 同一 局 部 存储 区 域 的 趋势 。 

M 缩写 ， 意味 着 2”=1 048 576， 因 此 ，2Mb =2 097 152 fiz, 

magnetic disk ( 磁盘) ” 带 磁 性 表面 层 的 扁平 圆 盘 ， 其 一 面 或 双 面 能 存放 数据 。 

magnetic tape (磁带 ) ” 带 磁 性 表面 层 的 带子 ， 它 利用 磁 记 录 来 存放 数据 。 

mainframe (大 型 机 ) ”最初 定义 为 包含 大 型 电脑 中 的 中 央 处 理 器 或 主机 机 柜 的 术语 。 在 20 世纪 70 年 代 早 
期 较 小 的 小 型 机 设计 出 现 之 后 ， 传 统 的 大 机 器 被 描述 为 大 型 计算 机 或 大 型 机 。 主 机 典型 的 特征 是 支持 
大 型 数据 库 ， 有 精细 的 VO 硬件 ， 并 被 用 作为 主要 的 数据 处 理工 具 。 

main memory (F) 程序 可 编 址 的 存储 器 ， 其 中 的 指令 和 其 他 数据 可 以 直接 装载 寄存 器 以 便 后 续 的 执 


行 或 处 理 。 

memory address register ( MAR， 存 储 器 地 址 寄存 器 ) ”处 理 单元 中 的 寄存 器 ， 存 放 即 将 访问 的 存储 单元 
的 地 址 。 

memory buffer register ( MBR， 存 储 器 缓冲 寄存 器 ) ”存放 从 主 存 中 读 出 的 数据 或 将 写 进 存储 单元 的 数据 


memory cycle time (存储 周期 时 间 ) 能够 访问 存储 器 的 速度 的 倒数 。 它 是 上 一 次 访问 请 求 ( 读 或 写 ) 响 
应 到 下 一 次 访问 请 求 响 应 之 间 的 最 小 时 间 间 隔 。 

memory-mapped I/O (存储 器 映射 VDO) 一 种 对 WO 模块 和 外 部 设备 进行 编 址 的 方法 。 单 一 的 地 址 空间 
既 可 用 于 主 存 地 址 ， 也 可 用 于 IO 地 址 。 相 同 的 机 器 指令 既 可 用 于 存储 器 的 读 / 写 ， 也 可 用 于 IO 
操作 。 

microcomputer ( 微 计算 机 ) ”处 理 单元 是 微 处 理 器 的 计算 机 系统 。 基 本 的 微 计算 机 包括 微 处 理 器 、 存 储 器 
和 输入 /输出 设备 ， 它 们 既 可 以 集成 在 一 片 芯 片上 ， 也 可 以 在 多 块 芯片 上 。 

microinstruction ( 微 指 令 ) ”控制 数据 流 的 指令 ， 它 在 处 理 器 中 处 于 比 机 器 指令 更 基本 的 级 别 。 单 个 机 器 指 
令 和 其 他 功能 可 以 由 微 程序 来 实现 。 

micro-operation ( 微 操作 ) ”最 基本 的 CPU 操作 ， 能 在 一 个 时 钟 脉冲 内 执行 。 

microprocessor ( 微 处 理 器 ) ”其 元 件 已 经 被 小 型 化 到 一 个 或 很 少 几 个 集成 电路 中 的 处 理 器 。 

microprogram ( 微 程 序 ) ”特殊 存储 器 中 的 一 系列 微 指令 ， 它 们 能 被 动态 访问 以 执行 各 种 功能 。 

microprogrammed CPU ( 微 程 序 CPU) 利用 微 程 序 设 计 来 实现 控制 单元 的 CPU, 


R  #-477 


microprogramming language ( 微 程 序 设计 语言 ) 用 于 说 明 微 程序 的 指令 集 。 

multiplexer ( 多 路 选择 器 ) ”连接 多 个 输入 到 一 个 单独 的 输出 的 组 合 电路 。 任 何 时 候 ， 仅 仅 选 择 一 个 输入 通 
过 ， 作 为 输出 。 

multiplexor channel (多 路 通道 ) 设计 用 来 同时 处 理 多 个 VO 设备 的 通道 。 通 过 交叉 传送 数据 项 ， 多 个 IO 
设备 能 够 同时 传输 记录 。 人 参考 byte multiplexor channel 和 block multiplexor channel, 

multiprocessor ( 多 处 理 器 ) ”具有 两 个 或 多 个 处 理 器 的 计算 机 ， 各 处 理 器 能 对 主 存 共同 访问 。 

multiprogramming ( 多 道 程序 设计 ) 一 种 单个 处 理 器 能 够 交叉 执行 两 个 或 多 个 程序 的 处 理 模 式 。 

multitasking ( 多 道 任务 ) ”一 种 提供 并 发 执行 或 交叉 执行 两 个 或 多 个 计算 机 任务 的 处 理 模式 。 与 multipro- 
gramming 相同 ， 只 是 使 用 了 不 同 的 术语 。 

nonuniform memory access (NUMA) multiprocessor ( 非 均匀 存储 器 访问 (NUMA) 的 多 处 理 器 ) ”一 种 
共享 存储 器 的 多 处 理 器 ， 其 中 ， 某 一 给 定 处 理 器 对 存储 器 中 字 的 访问 时 间 随 着 存储 器 字 的 位 置 不 同 而 
变化 。 

nonvolatile memory ( 非 易 挥发 性 存储 器 ) ”其 内 容 是 固定 的 且 不 需要 持续 电能 的 存储 器 。 

nucleus (原子 ) ”操作 系统 的 一 部 分 ， 它 包含 基本 的 、 最 常用 的 功能 。 通 常 ， 原 子 常 驻 在 主 存 中 。 

ones complement representation (1 的 补 码 表示 ) ”用 来 表示 二 进 制 整数 。 正 整数 表示 为 带 符号 的 数值 ; 
负 整 数 表示 为 将 等 量 正 整数 表示 的 各 位 取 反 。 : 

opcode (操作 码 ) operation code 的 缩写 。 

operand (操作 数 ) 一 个 实体 ， 其 上 执行 操作 。 

operating system (操作 系统 ) ”控制 程序 执行 ， 并 且 提 供 程序 定位 、 调 度 、LO 控制 和 数据 管理 等 服务 的 
软件 。 

operation code ( 操作 码 ) ”用 来 表示 计算 机 操作 的 代码 ， 常 缩写 为 opcode。 

orthogonality ( 正 交 性 ) ”两 个 变量 或 空间 相互 独立 的 原则 。 在 指令 集 知识 点 中 ,该 术语 常用 来 说 明 指 令 中 
的 其 他 元 素 〈 寻 址 方式 、 操 作 数 个 数 、 操 作 数 长 度 ) 是 独立 于 (不 决定 于 ) 操作 码 的 。 

page (页 面 ) 在 虚拟 存储 器 系统 中 ， 具 有 虚拟 地 址 的 固定 大 小 的 数据 块 ， 它 是 物理 存储 器 与 辅助 存储 器 
之 间 数 据 传输 的 基本 单位 。 

page fault ( 页 缺失 ) “发生 在 包含 访问 字 的 页 面 不 在 主 存 中 时 ， 它 将 引起 一 个 中 断 ， 并 需要 操作 系统 将 需 
要 的 页 面 调 进 主 存 。 

page frame (Tibi) 主 存 中 用 来 保存 一 个 页 面 的 区 域 。 

parity bit (奇偶 位 ) 添加 在 一 组 二 进 制 数字 中 使 整个 数据 的 和 总 是 为 偶 〈 偶 校 验 ) 或 总 是 为 奇 ( 奇 校 
验 )。 

peripheral equipment ( 外 部 设备 ) ”在 计算 机 系统 中 ， 相 对 于 特殊 的 处 理 单元 来 说 ， 给 处 理 单元 提供 外 部 
通信 的 任何 设备 。 同 义 于 peripheral device, 

Pipeline (流水 线 ) ”一 种 处 理 器 组 织 ， 其 中 的 处 理 器 包含 多 个 段 ， 允 许多 条 指令 同时 执行 。 

predicated execution ( 预测 执行 ) 一 种 支持 个 别 指令 条 件 执行 的 机 制 ， 它 使 预测 性 地 执行 分 支 指令 的 两 
个 不 同 分 支 且 保留 分 支 指令 最 后 的 执行 结果 成 为 可 能 。 

process (进程 ) 执行 中 的 程序 。 进 程 的 控制 与 调度 由 操作 系统 完成 。 

process control block (进程 控制 模块 ) 操作 系统 中 进程 的 表现 ， 它 是 包含 进程 特征 和 状态 信息 的 数据 
结构 。 

processor ( 处 理 器 ) ”计算 机 中 解释 和 执行 指令 的 功能 单元 。 处 理 器 至 少 包含 有 指令 控制 单元 和 算术 单元 。 

processor cycle time ( 处 理 器 周期 时 间 ) 最短 的 定义 明确 的 CPU 微 操作 所 需要 的 时 间 。 它 是 测量 所 有 
CPU 行为 的 基本 数据 单位 。 同 义 于 machine cycle time。 

program counter (程序 计数 器 ) ”指令 地 址 寄存 器 。 

programmable logic array (PLA， 可 编程 逻辑 阵列 ) 门 之 间 的 互 连 能 被 编程 来 实现 特定 逻辑 功能 的 门 
阵列 。 

programmable read-only memory ( PROM ， 可 编程 只 读 存储 器 ) ”其 内 容 仅 仅 能 被 设置 一 次 的 半导体 存储 
器 。 写 过 程 由 电 实现 ， 且 可 以 在 原始 芯片 制作 完成 后 由 用 户 实现 。 
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programmed I/O (编程 式 MO) 一 种 VO 形式， 此 时 ，CPU 给 V0 模块 发 送 一 条 IO 命令 ， 并 且 必 须 等 
待 该 WO 操作 完成 之 后 才能 进行 后 续 工 作 。 

program status word (PSW, 程序 状态 字 ) ”存储 器 中 的 一 个 区 域 ， 用 来 指明 指令 执行 的 顺序 、 保 持 和 指 
示 计 算 机 系统 的 状态 。 同 义 于 processor status word, 

random-access memory (RAM, ， 随 机 访问 存储 器 ) “每 个 地 址 单元 都 有 唯一 的 编 址 机 制 的 存储 器 。 访 问 一 
给 定单 元 的 时 间 与 前 一 次 访问 的 次 序 无 关 。 

read-only memory ( ROM， 只 读 存储 器 ) ”除非 破坏 存储 单元 以 外 ， 其 内 容 不 能 改变 的 半导体 存储 器 。 也 
是 非 易 挥发 性 存储 器 。 

redundant array of independent disks ( RAID ， 独 立 宛 余 磁 盘 阵 列 ) 一 种 磁盘 阵列 ， 其 中 一 部 分 物理 存储 
空间 用 来 存放 关于 用 户 数据 的 元 余 信 息 ， 而 用 户 数据 则 存放 在 存储 空间 的 其 余 位 置 。 当 一 个 阵列 磁盘 
或 访问 它 的 路 径 遭 破坏 时 ， 宛 余 信 息 能 够 再 生 用 户 数据 。 

registers (寄存 器 ) CPU 内 部 的 高 速 存储 器 。 一 些 寄存 器 是 用 户 可 见 的 ， 即 程序 员 可 以 通过 机 器 指令 使 用 
它们 ; 而 另 一 些 只 能 由 CPU 使 用 ， 用 于 控制 机 器 。 

scalar (标量 ) 具有 单个 数值 的 量 。 

secondary memory ( 辅助 存储 器 ) ”处 于 计算 机 系统 本 身 之 外 的 存储 器 ， 即 处 理 器 不 能 直接 访问 它 ， 必 须 
首先 将 其 拷贝 到 主 存 。 例 如 ， 磁 盘 和 磁带 。 

selector channel (选择 通道 ) 一 种 设计 在 任何 时 刻 ， 只 能 与 一 个 VO 设备 进行 操作 的 VO 通道 。 一 旦 选 
择 了 某 个 WO 设备 ， 则 其 全 部 记录 以 字 节 为 单位 传输 完 。 对 比 于 block multiplexor channel 和 multiplexor 


channel。 

semiconductor (半导体 ) 一 种 固态 晶体 物质 ( 硅 、 销 ) ， 它 们 的 导电 性 能 介 于 绝缘 体 和 导体 之 间 ， 用 来 
制 成 晶体 管 和 固体 元 件 。 

sequential circuit ( 时 序 电路 ) ”一 种 数字 逻辑 电路 ， 其 输出 依赖 于 电路 输入 和 电路 的 状态 ， 因 此 ， 时 序 电 
路 具有 存储 器 的 功能 。 


sign-magnitude representation (符号 - 幅 值 表示 ) 用 来 表示 二 进 制 整数 。 在 一 个 NN 位 字 中 ， 最 左 的 位 是 符 
5 ORRE, 1 RH), HRN -1 位 表示 这 个 数 的 幅 值 。 

solid-state component ( 固体 元 件 ) ”一 种 元 件 ， 其 操作 依赖 于 固体 (如 晶体 二 极 管 、 铁 氧 体 磁 心 ) 中 电 现 
象 或 磁 现 象 的 控制 。 

speculative execution ( 猜测 执行 ) ”指令 沿 着 分 支 的 一 条 路 径 的 执行 ， 如 果 后 来 这 个 分 支 没有 按 猜 测 的 情 
况 出 现 ， 则 猜测 执行 的 结果 应 该 被 丢弃 。 

stack ( 栈 ) 一 种 有 序 序列 ， 其 项 目的 添加 和 删除 都 从 序列 的 同一 固定 端 进 行 ， 该 固定 端 被 称 为 栈 顶 。 也 
就 是 说 ， 下 一 个 将 添加 到 序列 的 项 目 被 置 于 栈 顶 ， 而 下 一 个 将 被 移出 序列 的 项 目 是 处 于 序列 中 最 短 时 
间 的 那个 项 目 。 这 种 方法 被 称 为 “后 进 先 出 ”。 

static RAM (静态 RAM) ”由 触发 器 实现 其 单元 的 RAM 存储 器 。 只 要 供电 ， 静 态 RAM 将 一 直 保存 其 数据 ， 
不 需要 周期 性 刷新 。 ， 

superpipelined processor (超级 流水 线 处 理 器 ) ”一 种 处 理 器 ， 其 指令 流水 线 被 设计 成 包含 很 多 非常 小 的 
段 ， 以 至 于 在 一 个 时 钟 周期 内 能 够 执行 多 个 流水 线段 ， 也 就 是 ， 大 量 的 指令 可 以 同时 处 于 流水 线 中 。 

superscalar processor (超标 量 处 理 器 ) ”一 种 处 理 器 设计 ， 它 包含 多 条 指令 流水 线 ， 因 此 在 同一 流水 线段 
中 能 够 同时 执行 多 条 指令 。 

symmetric multiprocessing ( SMP， 对 称 多 处 理 器 ) ”一 种 多 处 理 器 形式 ， 它 允许 操作 系统 运行 在 任意 一 个 
可 用 的 处 理 器 上 ， 或 者 同时 运行 在 几 个 可 用 的 处 理 器 上 。 

synchronous timing ( 同步 时 序 ) ”总 线 上 事件 的 发 生 由 时 钟 来 决定 的 一 种 技术 。 时 钟 定义 了 等 宽度 的 时 间 
R, 并 且 事 件 仅仅 发 生 在 时 钟 槽 的 起 始 端 。 

system bus ( 系统 总 线 ) ”用 来 连接 计算 机 的 主要 部 件 (CPU, EF. VO) 的 总 线 。 

truth table (RER) ”一 种 描述 逻辑 功能 的 表 ， 它 列 出 输入 值 的 所 有 可 能 组 合 ， 并 且说 明 每 个 输入 组 合 所 
对 应 的 输出 值 。 

twos complement representation (2 的 补 码 表示 ) ”用 来 表示 二 进 制 整 数 。 正 整数 的 表示 与 符号 幅 值 表示 一 
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致 ; 负 整 数 表 示 为 与 之 对 应 正 数 的 各 位 取 逻 辑 补 码 ( 取 反 ) 后 加 1， 使 结果 的 位 模式 看 起 来 像 一 个 无 
符号 整数 一 样 。 

unary operator (一 元 操作 符 ) ”表示 一 个 或 仅 仪 一 个 操作 数 运算 的 一 种 操作 。 

unconditional jump (无 条 件 转 移 ) ” 当 指 定 它 的 指令 被 执行 时 随时 就 发 生 的 跳 转 。 

uniprocessing (单机 处 理 ) ”指令 的 顺序 执行 ， 由 单个 处 理 器 单元 或 多 处 理 器 系统 中 的 一 个 独立 的 处 理 器 
单元 来 完成 。 

user-visible registers ( 用户 可 见 寄存 器 ) CPU 中 可 以 由 程序 员 定 义 的 寄存 器 。 指 令 集 格式 允许 指定 一 个 
或 多 个 寄存 器 作为 操作 数 或 操作 数 地 址 。 

vector (向 量 ) 通常 由 一 组 有 序 标量 构成 的 量 。 

very long instruction word (VLIW， 超 长 指令 字 ) ”定义 为 包含 多 个 操作 的 指令 的 使 用 。 相 当 于 ,将 多 条 指 
令 包 含 在 一 个 单独 的 字 中 ， 特 别 是 ，VLIW 由 编译 器 构造 ， 它 将 可 以 并 行 执行 的 操作 安排 在 同一 字 中 。 

virtual storage (虚拟 存储 器 ) ”用 户 可 以 认为 它 是 可 编 址 主 存 的 存储 空间 。 在 计算 机 系统 中 ， 虚 拟 地 址 被 
映射 成 真实 地 址 ， 虚 拟 存储 器 的 尺寸 受 限 于 计算 机 系统 的 编 址 方式 和 可 用 的 虚拟 存储 器 容量 ， 而 不 受 
实际 主 存单 元 数量 的 限制 。 

volatile memory ( 易 挥发 式 存储 器 ) 需要 连续 的 电能 来 维持 其 内 容 的 存储 器 。 如 果 关 掉 电 能 ， 则 存放 的 信 
BER. 

word (F) 有 序 字 节 或 位 的 集合 。 在 给 定 的 计算 机 内 ， 它 是 可 以 存储 、 传 送 或 处 理 信息 的 正常 单位 。 典 
型 地 ， 如 果 处 理 器 有 一 定 长 指令 集 ， 则 其 指令 长 等 于 字 长 。 
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